📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Can Large Language Models Generate Effective Datasets for Emotion Recognition in Conversations?

2025-08-08

Авторы:

Burak Can Kaplan, Hugo Cesar De Castro Carneiro, Stefan Wermter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций в разговорном контексте (Emotion Recognition in Conversations, ERC) является ключевой задачей в области компьютерного зрения и естественного языкового обработки, направленной на понимание динамики эмоций в разговоре. Эта задача имеет большое значение для развития машинного интеллекта, так как она позволяет моделям понимать не только слова, но и эмоциональное состояние участников взаимодействия. Однако, несмотря на значимость ERC, существующие датасеты часто страдают от недостатков, таких как высокая субъективность и неточность аннотаций (soft labels), а также биасы, возникающие из-за ограниченного источника данных. Кроме того, разработка датасетов для ERC — задача трудоемкая и дорогостоящая, требующая тщательного анализа и аннотирования данных. Это ограничивает разнообразие и качество доступных ресурсов, что в свою очередь затрудняет создание эффективных моделей распознавания эмоций. Недавно, большие языковые модели (Large Language Models, LLMs) показали высокую эффективность в различных задачах, связанных с обработкой естественного языка, но их применение для генерации данных в ERC остается ограниченным из-за высоких затрат на их обучение и неопределенности качества генерируемых данных. В этой работе авторы предлагают решение этих проблем путем использования небольшой, эффективной и общецелевой LLM для генерации датасетов ERC. Целью является создание разнообразных и качественных данных, которые могут дополнить существующие датасеты и помочь в улучшении моделей распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют небольшую, но мощную LLM для генерации датасетов ERC. Эта модель обучена на общих данных и применяется для синтеза конверсационных диалогов с различными эмоциональными состояниями. Генерируемые датасеты содержат разнообразные свойства, такие как различные контексты разговора, эмоциональные переходы и неоднозначность эмоций, что позволяет создать более реалистичные и разнообразные данные. В рамках исследования было сгенерировано шесть новых датасетов, каждый из которых предназначен для дополнения одного из трех существующих ERC-бенчмарков. Два датасета были специально сконструированы для каждого из этих бенчмарков, с целью улучшения их разнообразия и качества. Авторы также учитывают проблему несбалансированности данных (label imbalance), которая может влиять на производительность моделей. Для этого были разработаны методы для анализа и коррекции несбалансированности в генерируемых датасетах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности генерируемых датасетов. Они обучили модели распознавания эмоций на генерируемых датасетах и проверили их производительность на существующих ERC-бенчмарках. Результаты показали, что модели, обученные на новых датасетах, демонстрируют высокую производительность и робастность, а также показывают статистически значимые улучшения по сравнению с моделями, обученными только на оригинальных датасетах. Кроме того, авторы проанализировали влияние несбалансированности данных на производительность моделей. Они показали, что генерируемые датасеты помогают снизить негативное влияние несбалансированности, улучшив работу моделей на менее представленных эмоциональных категориях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет значительное практическое значение для разработки систем распознавания эмоций в разговорных контекстах. Генерация датасетов с помощью LLMs позволяет создавать более разнообразные и реалистичные данные, что важно для улучшения общей производительности моделей ERC. Кроме того, этот подход может быть использован для коррекции несбалансированности данных, что является ключевым фактором для повышения точности и справедливости моделей. Потенциальные области применения включают в себя разработку технологий для автоматического анализа эмоционального тона в разговорных интерфейсах, а также улучшение систем общения человеком-машиной, где понимание эмоций играет важную роль. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что небольшие, ресурсоэффективные LLMs могут быть использованы для генерации высококачественных датасетов для ERC. Это открывает новые возможности для улучшения моделей распознавания эмоций, особенно в условиях ограниченных ресурсов. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерируемых данных, а также на расширении методологии для других задач, связанных с анализом эмоций в разговорных диалогах.

Annotation:

Emotion recognition in conversations (ERC) focuses on identifying emotion shifts within interactions, representing a significant step toward advancing machine intelligence. However, ERC data remains scarce, and existing datasets face numerous challenges due to their highly biased sources and the inherent subjectivity of soft labels. Even though Large Language Models (LLMs) have demonstrated their quality in many affective tasks, they are typically expensive to train, and their application to ERC...

ID: 2508.05474v1 cs.AI, cs.CL

arXiv PDF

📄 MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling

2025-08-08

Авторы:

Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey, Anoop Mayampurath, Matthew M. Churpek, Guanhua Chen, Majid Afshar

## КОНТЕКСТ И ПРОБЛЕМАТИКА Электронные медицинские карты (Electronic Health Records, EHR) содержат многомодальные данные, включающие клинические заметки, медицинские изображения, лабораторные результаты и другие форматы информации о пациентах. Такие данные являются источником ценных и дополнительных сведений для оценки состояния здоровья пациентов. Однако, интеграция таких разнородных источников данных в единые модели прогнозирования представляет собой серьезную проблему. Традиционные подходы часто требуют больших объемов данных для обучения и имеют сложности в обработке и комбинации различных модальностей. Применение моделей основанных на технологиях языковых моделей (Large Language Models, LLM) в клинических задачах также сталкивается с ограничениями. Несмотря на то, что LLM хорошо справляются с обработкой текстовых данных, их применение к нетекстовым модальностям, таким как изображения и табличные данные, требует дополнительных преобразований. Также, создание моделей, способных эффективно обрабатывать и сочетать различные типы данных, требует новых подходов для обеспечения высокой точности и гибкости. Кроме того, существующие методы часто недостаточно гибкие для работы с различными комбинациями модальностей, что ограничивает их применение в реальных клинических условиях. Таким образом, необходим новый подход, который мог бы эффективно интегрировать различные модальности данных EHR и обеспечить точные клинические прогнозы. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается архитектура Mixture-of-Multimodal-Agents (MoMA), которая использует несколько LLM-агентов для решения задач клинического прогнозирования на основе многомодальных данных EHR. MoMA состоит из трех основных компонентов: "specialist agents", "aggregator agent", и "predictor agent". "Specialist agents" отвечают за преобразование нетекстовых модальностей, таких как медицинские изображения и лабораторные результаты, в структурированные текстовые описания. Эти описания позволяют преобразовать неструктурированные данные в формат, который может быть легко интегрирован с текстовыми данными. "Aggregator agent" занимается комбинацией текстовых описаний, полученных от "specialist agents", с клиническими заметками для создания единого многомодального результата. Этот шаг позволяет объединить информацию из различных источников в единый контекст, который может быть использован для прогнозирования. "Predictor agent" является конечной моделью, которая использует полученный многомодальный результат для выполнения клинических прогнозов. Эта модель основана на LLM и обеспечивает высокую точность прогнозов за счет интеграции информации из различных модальностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность MoMA, авторы провели эксперименты на трех клинических задачах прогнозирования, используя реальные наборы данных EHR с различными комбинациями модальностей. Эксперименты показали, что MoMA превосходит современные методы в терминах точности прогнозов. Авторы также продемонтрировали, что архитектура MoMA хорошо адаптируется к различным комбинациям модальностей данных, что делает ее более гибкой в реальных условиях. Модель показала значительное улучшение результатов в сравнении со стандартными подходами, особенно в случаях, когда использовались различные типы данных, такие как изображения и текстовые заметки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод MoMA имеет широкое применение в клинической практике, особенно в задачах прогнозирования результатов лечения, определения риска развития заболеваний и других клинических задачах. Его гибкость и способность обрабатывать различные типы данных делают его подходящим для использования в различных клинических сценариях. Преимущества MoMA включают в себя улучшенную точность прогнозов, гибкость в работе с различными комбинациями модальностей данных и возможность интеграции неструктурированных данных в единый контекст. Эти преимущества могут привести к значительному улучшению клинических решений и повышению эффективности лечения пациентов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Архитектура MoMA представляет собой значительный шаг вперед в интеграции многомодальных данных для клинических прогнозов. Она демонстрирует высокую точность и гибкость, что делает ее подходящей для реального применения в клинической практике. В будущем, авторы планируют расширить данную модель для работы с большими и более разнообразными наборами данных, а также исследовать возможности улучшения эффективности обработки нетекстовых модальностей. Также, предвидится исследование возможностей применения MoMA в других областях, таких как обработка данных из других сфер, где используются многомодальные данные.

Annotation:

Multimodal electronic health record (EHR) data provide richer, complementary insights into patient health compared to single-modality data. However, effectively integrating diverse data modalities for clinical prediction modeling remains challenging due to the substantial data requirements. We introduce a novel architecture, Mixture-of-Multimodal-Agents (MoMA), designed to leverage multiple large language model (LLM) agents for clinical prediction tasks using multimodal EHR data. MoMA employs sp...

ID: 2508.05492v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

2025-08-08

Авторы:

Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) отличаются впечатляющими способностями к резонированию на широком спектре задач, но улучшение этих способностей после обучения требует значительных ресурсов, особенно в плане данных и вычислительных мощностей. Несмотря на то, что недавние исследования поставили цель повысить эффективность выбора данных, многие существующие методы основываются на эвристических или специфических для задачи подходах, что ограничивает их масштабируемость. Это представляет серьезные трудности для разработки эффективных и масштабируемых решений, особенно в контексте высокосложных задач, таких как математическое резонирование. Основной проблемой является необходимость разработки методологии, которая могла бы комбинировать высокую скорость обучения, эффективное использование данных и широкую применимость на различных задачах. Традиционные подходы часто требуют больших корпусов данных для достижения хороших результатов, что становится неэкономичным при работе с крупными моделями. Кроме того, многие методы не обеспечивают достаточного качества адаптации модели к новым задачам, особенно в случае расширения на незнакомые источники данных. В этой работе авторы предлагают решение, направленное на устранение этих ограничений, под названием **InfiAlign**. Этот подход предлагает комбинацию надлежащего выбора данных и полного пост-обучения для улучшения способностей LLMs к резонированию, при этом существенно сокращая объем необходимых данных и повышая масштабируемость. ## ПРЕДЛОЖЕННЫЙ МЕТОД **InfiAlign** представляет собой масштабируемый и эффективный почто-обучающийся фреймворк, который интегрирует два ключевых компонента: supervised fine-tuning (SFT) и Direct Preference Optimization (DPO). Основой фреймворка является робастная конвейерная система выбора данных, которая автоматически отображает высококачественные данные для выравнивания модели из открытых источников reasoning datasets. Для этого используются мультимерные метрики качества, которые позволяют выбрать наиболее подходящие данные. SFT-компонент InfiAlign обеспечивает начальную настройку модели, оптимизируя ее для различных задач резонирования. Затем DPO применяется для дополнительного улучшения, особенно в области математического резонирования. Этот двухступенчатый подход позволяет модели достичь высоких результатов, опираясь на минимальный объем данных по сравнению с другими методами. Ключевой особенностью InfiAlign является его возможность работать с новыми источниками данных без необходимости значительных модификаций, что повышает его масштабируемость и применимость в различных контекстах. Этот фреймворк также обеспечивает высокую производительность при использовании ограниченных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, используя модель **Qwen2.5-Math-7B-Base**, чтобы продемонстрировать эффективность InfiAlign. Результаты показали, что модель, обученная с помощью SFT, достигла результатов, сравнимых с **DeepSeek-R1-Distill-Qwen-7B**, при этом использовав только около 12% объема данных для обучения. Это свидетельствует о высокой эффективности выбора данных в InfiAlign. Кроме того, применение DPO привело к значительным улучшениям, особенно в задачах математического резонирования. Модель показала улучшение в среднем на 3.89% по AIME 24/25 benchmarks, что является внутренним показателем эффективности. Эти результаты подтверждают, что InfiAlign не только эффективен в плане уменьшения объема данных, но и обеспечивает хорошую обобщающую способность на различных задачах резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ **InfiAlign** имеет высокую практическую значимость для разработчиков и исследователей, работающих с LLMs. Он позволяет эффективно выровнять модели с минимальными затратами на вычислительные ресурсы и данные, что делает его пригодным для различных приложений, особенно в областях, требующих высокого уровня резонирования, таких как математические моделирование, научные исследования и другие высокосложные задачи. Преимущества InfiAlign включают в себя высокую масштабируемость, эффективность использования данных и возможность работы с разными источниками данных. Это делает его подходящим для использования в промышленных и научных приложениях, где необходимо быстро и эффективно обучать модели для решения сложных задач. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ InfiAlign является важной разработкой в области пост-обучения LLMs, поскольку он сочетает в себе эффективность и масштабируемость. Основные достижения этого фреймворка заключаются в уменьшении необходимого объема данных, повышении качества резонирования и обеспечении широкой применимости. Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности выбора данных, а также на расширении InfiAlign для работы с более широким спектром задач и моделей. Это может включать в себя исследования новых методов оптимизации и дальнейшего совершенствования архитектуры фреймворка для достижения еще более высоких результатов.

Annotation:

Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and samp...

ID: 2508.05496v1 cs.AI

arXiv PDF

📄 GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

2025-08-08

Авторы:

Ge Chang, Jinbo Su, Jiacheng Liu, Pengfei Yang, Yuhao Shang, Huiwen Zheng, Hongli Ma, Yan Liang, Yuanchun Li, Yunxin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) в сочетании с техниками Retrieval-Augmented Generation (RAG) показали выдающиеся результаты в различных областях. Однако существующие подходы RAG ориентированы в основном на работу с неструктурированными данными и имеют ограниченные возможности для обработки структурированных знаний, таких как графы знаний. Это создает значительные проблемы, так как графы знаний представляют собой ключевую форму структурированной информации, и их эффективное использование требует умения контролировать точность и содержательность получаемых данных. Традиционные методы ретриева графов сталкиваются со сложностями, связанными с захватом целостной структуры графа и одновременной поддержкой высокой точности. Эти проблемы приводят либо к недостатку критической информации, либо к чрезмерному количеству избыточных соединений, что негативно сказывается на качестве вывода. Эти ограничения существенно ограничивают эффективность применения LLMs в задачах, требующих рационального использования графов знаний для построения выводов. Таким образом, необходимо разработать новый подход, который позволит интегрировать LLMs с графами знаний для эффективного вывода, поддерживая баланс между широтой и точностью получаемых данных. Такая задача требует создания эффективной методологии, которая бы обеспечила глубокое понимание структуры графа и динамически адаптировалась к потребностям задачи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эту проблему, авторы предлагают GRAIL (Graph-Retrieval Augmented Interactive Learning), фреймворк, основанный на интерактивном обучении для работы с большими графами знаний. GRAIL сочетает LLM-guided random exploration с path filtering для создания синтезированных данных, которые используются в дальнейшем для обучения. Это позволяет генерировать детальные траектории вывода для каждой задачи. В GRAIL реализован двухступенчатый процесс обучения, при котором разрабатывается политика для динамического выбора оптимальных действий на каждом шаге вывода. Эта политика направлена на достижение баланса между точностью и консистентностью ретриева, что повышает эффективность и стабильность обучения. Для достижения этого баланса используются тонкогранулярные награды, которые помогают оптимизировать процесс обучения. В рамках развертывания GRAIL используется интерактивный режим ретриева, где модель автоматически исследует пути в графе, одновременно контролируя широту и точность поиска. Это позволяет достигать оптимального соотношения между количеством получаемых данных и их качеством, что является ключевым фактором успеха системы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Для оценки эффективности GRAIL проведены эксперименты на трех наборах данных по задачам вопросов и ответов на основе графов знаний. Результаты показали значительные улучшения показателей. Использование GRAIL привело к повышению точности на 21.01% и F1-меры на 22.43% по сравнению со существующими методами. Эксперименты также демонстрируют высокую эффективность динамического поиска и балансировки широты и точности ретриева. Метод GRAIL успешно справляется со сложностями, связанными с ретриевом графов знаний, обеспечивая качественный вывод на основе структурированных данных. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ GRAIL имеет широкое применение в областях, требующих работы с графами знаний, таких как вопросно-ответные системы, рекомендательные системы и системы поддержки принятия решений. Благодаря своей способности динамически адаптироваться к потребностям задачи, GRAIL может значительно повысить эффективность работы с графами знаний, обеспечивая более точные и содержательные результаты. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ GRAIL представляет собой передовое решение для интеграции LLMs с графами знаний, обеспечивающее высокую точность и эффективность в задачах вывода. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и скорости ретриева, а также на расширении областей применения этого подхода. Исходный код и наборы данных GRAIL доступны для дальнейшего исследования и развития.

Annotation:

Large Language Models (LLMs) integrated with Retrieval-Augmented Generation (RAG) techniques have exhibited remarkable performance across a wide range of domains. However, existing RAG approaches primarily operate on unstructured data and demonstrate limited capability in handling structured knowledge such as knowledge graphs. Meanwhile, current graph retrieval methods fundamentally struggle to capture holistic graph structures while simultaneously facing precision control challenges that manife...

ID: 2508.05498v1 cs.AI

arXiv PDF

📄 Auto-Eval Judge: Towards a General Agentic Framework for Task Completion Evaluation

2025-08-08

Авторы:

Roshita Bhonsle, Rishav Dutta, Sneha Vavilapalli, Harsh Seth, Abubakarr Jaye, Yapei Chang, Mukund Rungta, Emmanuel Aboah Boateng, Sadid Hasan, Ehi Nosakhare, Soundar Srinivasan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА С распространением фундаментальных моделей-агентов в различных областях автоматизации и принятия решений становится все более актуальной необходимость в надежной системе оценки их результатов. Традиционные подходы, такие как LLM-as-a-Judge, ограничены оценкой только финальных выходных данных агента, не учитывая важный аспект – пошаговое рассуждение, которое лежит в основе агентского процесса принятия решений. Такой подход недостаточно полный, особенно когда речь идет об агентах, выполняющих сложные, многоступенчатые задачи. Другой класс решений – Agent-as-a-Judge – предлагает использовать один агент для оценки результатов другого. Однако эти системы часто специализированы на узких доменах, что ограничивает их применимость в широком спектре задач. Кроме того, существующие подходы недостаточно гибкие для оценки агентского поведения в различных контекстах, что создает проблему при работе в многообразных сферах применения. В этой статье авторы предлагают решение данной проблемы, представляя универсальный и модульный фреймворк для оценки задач, выполняемых агентами. Фреймворк предназначен для эмуляции человеческого подхода к оценке, разбивая задачу на подзадачи и проверяя каждый шаг на основе доступных данных, включая выходные данные и рассуждения агента. Такой подход стремится обеспечь полноту и консистентность оценки, независимо от домена задачи. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый фреймворк Auto-Eval Judge основывается на модульной структуре, где каждый модуль отвечает за конкретный аспект оценки. Он разделяет задачу на подзадачи, анализируя пошаговое выполнение и проверяя соответствие каждого шага заданным критериям. Фреймворк использует информацию из выходных данных агента и его рассуждений для проведения оценки. Ключевым элементом фреймворка является его модульность, которая позволяет адаптировать систему к разным типам задач без необходимости перекладывания всей системы. Каждый модуль фокусируется на отдельном аспекте, таком как логическая корректность, соответствие критериям задачи или эффективность выполнения. Затем, результаты каждого модуля агрегируются для формирования конечного вердикта о успешности задачи. Для валидации фреймворка авторы применили его к Magentic-One Actor Agent, оценивая его производительность на двух наборах данных: GAIA и BigCodeBench. Это позволило сравнить производительность с существующим базовым решением, основанным на GPT-4o. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах фреймворк Auto-Eval Judge демонстрирует значительное улучшение по сравнению с базовым подходом LLM-as-a-Judge. На датасете GAIA фреймворк показал рост точности выравнивания с человеческой оценкой на 4.76%, а на BigCodeBench это значение составило 10.52%. Эти результаты показывают, что предлагаемый фреймворк более точно отражает человеческий взгляд на успешность выполнения задачи. Кроме того, эксперименты показали, что фреймворк успешно оценивает пошаговое выполнение задач, обеспечивая более глубокий анализ по сравнению с традиционными подходами, которые ограничены оценкой только финальных результатов. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый фреймворк имеет широкие практические применения в различных областях, где требуется оценка агентских решений. Он может быть использован в таких сферах, как автоматизация бизнес-процессов, медицинская диагностика, финансовые прогнозы и другие области, требующие высокого уровня точности и прозрачности принятия решений. Основным преимуществом фреймворка является его универсальность и модульность, которые позволяют применять его в различных доменах без существенных изменений. Благодаря этому, он может стать ключевым инструментом для повышения надежности и эффективности агентских систем. # ВЫВОДЫ И ПЕРСПЕКТИВЫ Auto-Eval Judge представляет собой важный шаг к созданию универсального фреймворка для оценки задач, выполняемых агентами. Благодаря его модульной структуре и пошаговому подходу к оценке, он обеспечивает более точную и человечески подобную оценку, независимо от домена задачи. В будущем, этот фреймворк может быть расширен для включения дополнительных модулей, ориентированных на конкретные домены, а также для интеграции с более новыми моделями и методами обработки данных. Это открывает пути для дальнейшего улучшения точности и гибкости системы, что делает его перспективным инструментом для развития агентских технологий.

Annotation:

The increasing adoption of foundation models as agents across diverse domains necessitates a robust evaluation framework. Current methods, such as LLM-as-a-Judge, focus only on final outputs, overlooking the step-by-step reasoning that drives agentic decision-making. Meanwhile, existing Agent-as-a-Judge systems, where one agent evaluates another's task completion, are typically designed for narrow, domain-specific settings. To address this gap, we propose a generalizable, modular framework for e...

ID: 2508.05508v1 cs.AI

arXiv PDF

📄 LAG: Logic-Augmented Generation from a Cartesian Perspective

2025-08-08

Авторы:

Yilin Xiao, Chuang Zhou, Qinggang Zhang, Su Dong, Shengyuan Chen, Xiao Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Language Models (LLMs) достигли значительных успехов в решении разнообразных задач, однако они сталкиваются со серьёзными ограничениями в области знаний. Когда речь идёт об интенсивно знаний требующих задачах, LLMs часто выдают неверные или вымышленные ответы, так называемые галлюцинации. Традиционные подходы, такие как Retrieval-Augmented Generation (RAG), пытаются решить эту проблему путём интеграции внешнего знания, но они не всегда эффективны в сложных сценариях, требующих сложного логического вывода. Они ограничены прямым поиском по семантическим областям и не обладают структурированной логической организацией. Для решения этой проблемы, исследователи стремятся создать более эффективный метод, который мог бы сочетать внешний поиск знаний с логическим выводом. Идея состоит в том, чтобы разбить сложные вопросы на более простые подзадачи, упорядочить их в соответствии с логическими зависимостями, и решать их последовательно, используя предыдущие результаты для направления последующих поисков информации. Такой подход может не только улучшить точность вывода, но и предотвратить распространение ошибок, остановив вывод в случае возникшей неопределённости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Logic-Augmented Generation (LAG), который сочетает в себе систематическое разбор вопросов на подзадачи и зависимостей между ними. Метод разбивает сложные вопросы на более простые, после чего решает их последовательно, используя ответы на предыдущие подзадачи для улучшения поиска информации и вывода. Такая система построена на принципах, изложенных в труде Декарта "Discours de la m\'ethode", которые подчеркивают важность систематического разбиения сложной задачи на простые компоненты. LAG состоит из нескольких этапов: 1. **Разбор вопросов на подзадачи:** Сложные вопросы разбиваются на атомарные подзадачи, которые организованы в логической последовательности. 2. **Зависимости между подзадачами:** Для каждой подзадачи определяются зависимости от предыдущих решений, что позволяет использовать результаты предыдущих шагов в качестве контекста для последующих. 3. **Логическая терминация:** Если в процессе решения возникает неопределённость или невозможность ответов на подзадачи, LAG останавливает дальнейший вывод, что позволяет избежать распространения ошибок. 4. **Синтез решений:** Все полученные результаты подзадач собираются и проверяются, после чего формируется окончательный ответ. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы провести оценку метода LAG, проведены эксперименты на четырёх различных наборах данных, которые позволяют оценить качество логического вывода и способность модели предотвращать галлюцинации. Результаты показывают, что LAG значительно улучшает точность решения задач, снижает частоту галлюцинаций и обеспечивает более надёжное логическое вывода. В экспериментах LAG сравнивается с традиционными подходами RAG, демонстрируя преимущества в решении задач, требующих сложного логического вывода. Благодаря систематическому разбору подзадач и логической терминации, LAG показывает значительно более высокую точность и согласованность ответов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод LAG имеет широкие возможности применения в областях, требующих высокой точности и логического вывода, таких как медицинский диагноз, юридический анализ, финансовый консультирование и другие знаний-интенсивные сферы. Благодаря способности разбивать сложные вопросы на простые компоненты и проводить последовательный вывод, LAG может улучшить качество решений в этих областях, снизив риск ошибок и галлюцинаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый подход к решению задач знаний-интенсивных сценариев, который сочетает логический вывод с внешним поиском знаний. Результаты показывают, что LAG может значительно улучшить качество решений в сравнении с традиционными подходами. Будущие исследования могут сосредоточиться на дальнейшем улучшении методологии, включая расширение её возможностей для работы с более сложными и нечеткими данными, а также применение LAG в реальных системах.

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet exhibit critical limitations in knowledge-intensive tasks, often generating hallucinations when faced with questions requiring specialized expertise. While retrieval-augmented generation (RAG) mitigates this by integrating external knowledge, it struggles with complex reasoning scenarios due to its reliance on direct semantic retrieval and lack of structured logical organization. Inspired by ...

ID: 2508.05509v1 cs.CL, cs.AI

arXiv PDF

📄 Streamlining Admission with LOR Insights: AI-Based Leadership Assessment in Online Master's Program

2025-08-08

Авторы:

Meryem Yilmaz Soylu, Adrian Gallard, Jeonghyun Lee, Gayane Grigoryan, Rushil Desai, Stephen Harmon

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современной системе высшего образования процесс отбора кандидатов в магистерские программы все еще опирается на традиционные методы оценки, включая стандартизированные тесты и письма рекомендации (Letters of Recommendation - LOR). Несмотря на то, что LORы содержат богатую информацию о личностных качествах, профессиональных навыках и потенциале кандидатов, их анализ остается крайне трудоемким процессом. Приемные комиссии ежегодно сталкиваются с необходимостью обработки сотен и тысяч многостраничных текстовых документов, каждый из которых требует глубокого анализа и интерпретации. Особенно острой эта проблема становится в контексте онлайн-магистерских программ, где географическая удаленность кандидатов усиливает значение объективной оценки их soft skills, в первую очередь лидерских качеств. Исследования показывают, что лидерские навыки играют критически важную роль в успешности выпускников STEM-направлений, однако традиционные методы оценки через LOR зачастую не обеспечивают систематического и объективного анализа этих атрибутов. Существующая практика ручного просмотра рекомендательных писем подвержена человеческому фактору: усталости экспертов, субъективным предпочтениям и временным ограничениям. Это приводит к несогласованности в оценках и потенциальной утрате перспективных кандидатов. Более того, текущие системы не предоставляют структурированной обратной связи кандидатам по конкретным лидерским характеристикам, ограничивая их возможности для профессионального роста. Необходимость в автоматизированном, объективном и масштабируемом решении для анализа LOR стала критически важной для современных образовательных учреждений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения выявленных проблем авторы разработали инновационный инструмент LORI (LOR Insights) - систему искусственного интеллекта для автоматизированной оценки лидерских навыков кандидатов на основе анализа их рекомендательных писем. Система использует передовые методы обработки естественного языка и большие языковые модели, включая RoBERTa и LLaMA, для выявления ключевых лидерских атрибутов. Архитектура LORI основана на многоуровневом подходе к анализу текста. На первом этапе система выполняет предобработку текста, включая токенизацию, лемматизацию и удаление шумовых данных. Затем применяется RoBERTa-модель, обученная на специально подготовленном корпусе рекомендательных писем, для извлечения контекстуальных особенностей текста. Модель использует механизм внимания для идентификации ключевых фраз и концептов, связанных с лидерством. Система специально настроена на выявление трех основных категорий лидерских навыков: командная работа (teamwork), коммуникационные навыки (communication) и инновационность (innovation). Для каждой категории разработаны специфические метки и паттерны распознавания. Процесс обучения модели включал использование техники transfer learning с последующей тонкой настройкой на доменные данные. Для повышения точности классификации применялись методы ансамблирования и кросс-валидации. Особое внимание было уделено проблеме дисбаланса классов в обучающих данных. Авторы использовали стратегию weighted loss function для обеспечения равномерного представления всех категорий лидерских навыков. Кроме того, система включает модуль объяснимости, который генерирует человекочитаемые объяснения для каждого выявленного навыка, что критически важно для обратной связи кандидатам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось на основе реальных данных, полученных от заявителей онлайн-магистерских программ в крупном исследовательском университете. Обучающая выборка включала 2450 рекомендательных писем, каждое из которых было аннотировано экспертами приемной комиссии по трем категориям лидерских навыков. Данные были разделены в соотношении 70/15/15 для обучения, валидации и тестирования соответственно. Для оценки эффективности системы использовались стандартные метрики классификации: точность (precision), полнота (recall) и F1-мера. Ключевые результаты показали исключительную производительность модели: RoBERTa достигла взвешенной F1-оценки 91.6%, при этом точность состав

Annotation:

Letters of recommendation (LORs) provide valuable insights into candidates' capabilities and experiences beyond standardized test scores. However, reviewing these text-heavy materials is time-consuming and labor-intensive. To address this challenge and support the admission committee in providing feedback for students' professional growth, our study introduces LORI: LOR Insights, a novel AI-based detection tool for assessing leadership skills in LORs submitted by online master's program applican...

ID: 2508.05513v1 cs.AI, cs.LG

arXiv PDF

📄 The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities

2025-08-08

Авторы:

Harsh Nishant Lalai, Raj Sanjay Shah, Jiaxin Pei, Sashank Varma, Yi-Chia Wang, Ali Emami

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) проходят тщательную настройку для минимизации явных социальных и культурных предвзятостей. Однако, несмотря на эти усилия, в моделях сохраняются тонкие неявные искажения, корни которых уходят в данные, использованные при предобучении. Традиционный подход к выявлению таких искажений основан на прямом опросе моделей с помощью заранее подготовленных вопросов, что часто приводит к срабатыванию защитных механизмов и получению осторожных, политкорректных ответов. Этот метод ограничен тем, что не позволяет исследовать спонтанное поведение моделей в естественных условиях. Авторы статьи предлагают новый подход: вместо того чтобы задавать вопросы модели, они наблюдают, как модель сама формулирует вопросы для решения задачи дедукции. Для этого была выбрана игра в "20 вопросов" - мультитурнирная дедуктивная задача, где модель должна угадать задуманную сущность, задавая вопросы, на которые можно отвечать "да", "нет" или "не имеет значения". Эта игра идеально подходит для исследования, так как позволяет наблюдать, как модель сама инициирует и направляет процесс рассуждений. Особое внимание уделяется географическим различиям в способности моделей дедуцировать сущности из разных регионов мира. Существующие исследования сконцентрированы на англоязычном контенте и западноцентричном взгляде на мир, что может привести к систематическому занижению качества работы моделей с объектами из Глобального Юга и Востока. Это создает проблему справедливости и инклюзивности в применении ИИ систем на глобальном уровне. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического исследования географических различий авторы разработали новый датасет Geo20Q+, включающий 400 сущностей из разных регионов мира. Датасет содержит две категории объектов: 200 известных людей (политики, артисты, спортсмены, ученые) и 200 культурно значимых объектов (еды, достопримечательности, животные). Сущности распределены по 7 регионам: Северная Америка, Южная Америка, Европа, Африка, Ближний Восток, Азия и Австралия/Океания. Исследование охватывает 6 популярных LLM: GPT-4o, GPT-3.5-turbo, Claude-3-sonnet, Gemini-1.5-pro, Llama-3-70b и Mixtral-8x7b. Модели тестировались в двух конфигурациях игры: канонической версии с ограничением в 20 вопросов и версии с неограниченным количеством попыток. Эксперименты проводились на 7 языках: английском, хинди, китайском, японском, французском, испанском и турецком. Для проведения экспериментов была разработана автоматизированная система, где одна модель выступает ведущим (загадывает сущность), а другая - угадывающим. Угадывающая модель получает только категорию сущности (человек или объект) и должна сформулировать последовательность вопросов для дедукции правильного ответа. Ведущая модель отвечает на основе заранее подготовленных фактов о сущности. Авторы также проанализировали корреляцию между производительностью моделей и такими метриками, как количество просмотров страниц Википедии и частота упоминания в корпусе предобучения. Это позволило количественно оценить влияние представленности данных на качество дедукции. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты выявили значительные географические диспропорции в успешности дедукции сущностей. Модели демонстрируют существенно более высокую точность при угадывании объектов из Глобального Севера по сравнению с Глобальным Югом (разница до 35 процентных пунктов). Аналогичная тенденция наблюдается при сравнении Глобального Запада и Востока. Самые высокие показатели достигнуты для сущностей из Европы и Северной Америки, тогда как объекты из Африки и Южной Америки демонстрируют наихудшие результаты. Интересно, что язык взаимодействия оказал минимальное влияние на качество дедукции. Различия в точности между английским и другими языками составляли менее 5 процентных пунктов, что говорит о более глубоких, чем языковые барьеры, факторах, влияющих на производительность

Annotation:

Large Language Models (LLMs) have been extensively tuned to mitigate explicit biases, yet they often exhibit subtle implicit biases rooted in their pre-training data. Rather than directly probing LLMs with human-crafted questions that may trigger guardrails, we propose studying how models behave when they proactively ask questions themselves. The 20 Questions game, a multi-turn deduction task, serves as an ideal testbed for this purpose. We systematically evaluate geographic performance disparit...

ID: 2508.05525v1 cs.CL, cs.AI

arXiv PDF

📄 Tractable Sharpness-Aware Learning of Probabilistic Circuits

2025-08-08

Авторы:

Hrithik Suresh, Sahil Sidheekh, Vishnu Shreeram M. P, Sriraam Natarajan, Narayanan C. Krishnan

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Probabilistic Circuits (PCs) представляют собой класс генеративных моделей, которые обеспечены возможностью точного и вычислительно эффективного выполнения вывода для широкого спектра запросов. Благодаря этим свойствам, PCs получили широкое распространение в областях, требующих прозрачности и точности, таких как медицинские диагностики, обработка естественного языка и системы принятия решений. Однако, несмотря на их преимущества, существует ряд проблем, связанных с их обучением и применением. Одной из ключевых проблем является тенденция к переобучению, особенно при наличии ограниченного объема данных. Переобучение может произойти, когда модель становится слишком сложной, что приводит к плохой обобщающей способности на неизвестных данных. Традиционные подходы к решению этой проблемы часто основываются на регуляризации, но для PCs это может быть недостаточно эффективно из-за специфики их структуры и вычислительных особенностей. Дополнительная сложность заключается в том, что существующие методы регуляризации для глубоких нейронных сетей, такие как Sharpness-Aware Minimization (SAM), не легко применимы к Probabilistic Circuits из-за вычислительной сложности оценки второй производной функции лог-вероятности. Таким образом, необходим новый подход, который бы эффективно решал эту проблему для Probabilistic Circuits, сохраняя при этом их вычислительную эффективность. В данной статье авторы предлагают решение этой проблемы, основанное на анализе пейзажа лог-вероятности и использовании регуляризатора, основанного на трассировке гессиана. Это позволяет улучшить обобщающую способность моделей Probabilistic Circuits, сделав их более надёжными в реальных приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, называемый **Tractable Sharpness-Aware Learning**, который опирается на идею регуляризации лог-вероятностного пространства с помощью гессиана. Основная идея заключается в том, чтобы минимизировать трассировку гессиана функции лог-вероятности, которая служит прокси-метрикой для оценки остроты оптимума. Ключевой момент заключается в том, что для Probabilistic Circuits можно эффективно вычислить трассировку гессиана без необходимости прямого решения сложных математических выражений, что является существенным преимуществом по сравнению с глубокими нейронными сетями. Авторы доказывают, что это можно сделать с помощью эффективных алгоритмов, которые интегрируются с методами обучения на основе EM (Expectation-Maximization) и градиентных методов. Техническая реализация включает в себя добавление регуляризатора, который зависит от нормы градиента функции лог-вероятности. Этот регуляризатор позволяет смягчить остроту оптимума, что приводит к более плоским минимумам и, соответственно, к лучшей обобщающей способности модели. Алгоритм обучения остается простым и вычислительно эффективным, что делает его пригодным для практического использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на синтетических и реальных данных для оценки эффективности предложенного метода. На синтетических данных было показано, что метод эффективно смягчает остроту оптимума и улучшает обобщающую способность модели. На реальных данных, таких как наборы данных для классификации изображений и текстов, метод также демонстрирует значительное улучшение показателей качества по сравнению со стандартными методами обучения Probabilistic Circuits. Кроме того, было продемонстрировано, что предложенный метод не только улучшает качество модели, но также снижает вероятность переобучения, что является критическим фактором для моделей с высокой модельной емкостью. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений. Он может быть использован в задачах, где важна высокая точность и прозрачность модели, таких как медицинские диагностики, финансовые прогнозы и системы управления рисками. Благодаря улучшению обобщающей способности, метод также может быть полезен в задачах, где данных недостаточно для надежного обучения традиционных моделей. Одним из главных преимуществ является то, что метод сохраняет вычислительную эффективность Probabilistic Circuits, что делает его пригодным для реального времени и высоконагруженных приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Tractable Sharpness-Aware Learning является эффективным подходом для улучшения обучения Probabilistic Circuits. Он не только смягчает проблему переобучения, но также повышает обобщающую способность модели. В будущем можно рассмотреть возможность применения этого метода к другим классам моделей, а также исследовать его сочетание с другими методами регуляризации для дальнейшего улучшения результатов.

Annotation:

Probabilistic Circuits (PCs) are a class of generative models that allow exact and tractable inference for a wide range of queries. While recent developments have enabled the learning of deep and expressive PCs, this increased capacity can often lead to overfitting, especially when data is limited. We analyze PC overfitting from a log-likelihood-landscape perspective and show that it is often caused by convergence to sharp optima that generalize poorly. Inspired by sharpness aware minimization i...

ID: 2508.05537v1 cs.LG, cs.AI

arXiv PDF

📄 Conformal Sets in Multiple-Choice Question Answering under Black-Box Settings with Provable Coverage Guarantees

2025-08-08

Авторы:

Guang Yang, Xinyang Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Language Models (LLMs) достигли значительных успехов в задачах многовариантных ответов (Multiple-Choice Question Answering, MCQA), став мощным инструментом для решения широкого круга задач. Однако, несмотря на их продвинутые возможности, их неоднократно выявлялись проблемы, связанные с недостаточной надежностью. Такие недостатки, как генерация неточных или вымышленных фактов (hallucination) и чрезмерное уверенность в неверных ответах (overconfidence), препятствуют их применению в областях с высоким уровнем риска, где надежность и точность критически важны. Эти проблемы особенно остры в контексте "черного ящика" (black-box settings), когда внутренняя работа модели непонятна, и пользователи не могут оценить надежность предлагаемых ответов. Таким образом, необходимо разработать методы, которые позволят оценивать неопределенность (uncertainty quantification) в ответах моделей, обеспечивая высокую надежность даже в условиях, когда внутренний механизм модели недоступен для анализа. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод основанный на частотном анализе (frequency-based) и конформной прогнозирование (conformal prediction, CP). Здесь, для каждого вопроса, модель генерирует несколько независимых выборок ответов из своего распределения. Тогда, из всех этих выборок, выбирается тот, который встречается наиболее часто. Этот "наиболее частотный" ответ используется для вычисления предсказательной энтропии (Predictive Entropy, PE), которая служит мерой неопределенности. В отличие от традиционных методов, основанных на логитах (logit-based probabilities), этот подход не требует доступа к внутренним параметрам модели и может быть применен в "черном ящике". Этот метод также позволяет контролировать частоту ошибок (empirical miscoverage rate) в заданных уровнях риска, что делает его надежным инstrumentом для оценки неопределенности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования, эксперименты проводились на шести различных LLMs и четырех датасетах (MedMCQA, MedQA, MMLU, MMLU-Pro). Результаты показали, что частотный подход к оценке неопределенности (frequency-based PE) значительно превосходит логит-базированный подход (logit-based PE) в различении верных и неверных ответов, измеренном по метрике AUROC (Area Under the Receiver Operating Characteristic Curve). Кроме того, метод эффективно контролирует частоту ошибок (empirical miscoverage rate) в пределах заданных рисков, что подтверждает его надежность. Эти результаты демонстрируют, что частотный анализ может служить эффективным заменой логит-базированной вероятности в "черных ящиках". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где надежность ответов критична, таких как медицинская диагностика, финансовые консультации и юридические решения. Благодаря его способности обеспечить гарантии покрытия (coverage guarantees), этот метод может увеличить доверие к LLMs в практических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен distribution-free, model-agnostic фреймворк для надежной оценки неопределенности в MCQA, который может быть применен к любой модели в условиях "черного ящика". Будущие исследования могут фокусироваться на улучшении эффективности этого подхода и его адаптации для других доменов и задач.

Annotation:

Large Language Models (LLMs) have shown remarkable progress in multiple-choice question answering (MCQA), but their inherent unreliability, such as hallucination and overconfidence, limits their application in high-risk domains. To address this, we propose a frequency-based uncertainty quantification method under black-box settings, leveraging conformal prediction (CP) to ensure provable coverage guarantees. Our approach involves multiple independent samplings of the model's output distribution ...

ID: 2508.05544v1 cs.CL, cs.AI

arXiv PDF

1
2
1429
1430
1431
1432
1433
1442
1443

Показано 14301 - 14310 из 14425 записей