📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jinda Liu, Bo Cheng, Yi Chang, Yuan Wu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Parameter-Efficient Fine-Tuning (PEFT) является ключевым подходом для адаптации Large Language Models (LLMs) к новым задачам, особенно в условиях ограниченных вычислительных ресурсов. В настоящее время LLMs часто используются в многозадачных сценариях (Multi-Task Learning, MTL), требующих эффективной адаптации к различным доменам и задачам. Традиционный подход в MTL заключается в использовании многоадаптерных или многоголовных архитектур, таких как LoRA, которые предполагают структурную разнообразность для захвата уникальных особенностей каждой задачи. Однако этот подход сталкивается с проблемами, связанными с сложностью моделей, переобучением и снижением эффективности при одновременном обучении на нескольких задачах. Исследование Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning выдвигает критический взгляд на существующие парадигмы MTL. Авторы поднимают вопрос о том, насколько эффективны сложные многокомпонентные архитектуры при адаптации LLMs. Они показывают, что существующие подходы, основанные на многоадаптерных системах, могут быть не оптимальными. Вместо этого, исследование показывает, что упрощенные модели с высокой интер-головной схожестью (inter-head similarity) могут достичь более высокой эффективности. Это приводит к новой гипотезе: ключевым фактором успешной адаптации LLMs в MTL является обучение устойчивых общих представлений, а не изоляция задач-специфичных функций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы проверить эту гипотезу, авторы предлагают Align-LoRA, модификацию архитектуры LoRA, которая включает явное выравнивание (alignment) представлений задач в общем пространстве адаптера. В отличие от сложных многоадаптерных систем, Align-LoRA использует упрощенную структуру с единственным адаптером, но с более высоким рангом. Это позволяет модели фокусироваться на обучении общих представлений, сохраняя при этом возможность эффективной адаптации к нескольким задачам. Ключевой инновацией Align-LoRA является введение дополнительного лосса (loss), направленного на выравнивание представлений различных задач в общем пространстве. Это позволяет модели избегать чрезмерной специфичности для каждой задачи и поощряет формирование более универсальных и робастных представлений. Архитектура Align-LoRA проста в реализации и может быть легко интегрирована в существующие модели LoRA. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели комплексный набор экспериментов для оценки эффективности Align-LoRA. Исследование включало в себя моделирование на различных наборах данных, представляющих различные домены и задачи. Результаты показали, что Align-LoRA значительно превосходит базовые модели, основанные на многоадаптерных системах, в терминах точности и общей эффективности. Кроме того, эксперименты показали, что увеличение ранга адаптера в стандартной LoRA также может привести к значительному улучшению результатов, что подтверждает гипотезу о важности обучения общих представлений. Авторы также продемонстрировали, что их подход эффективен даже при ограниченных вычислительных ресурсах, что делает его практичным для реального применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Align-LoRA может быть применен в различных областях, где необходима эффективная адаптация LLMs к множеству задач. Этот подход особенно важен в сферах, требующих высокой точности и быстрой адаптации, таких как здравоохранение, финансы и коммерческие приложения. Упрощенная архитектура также делает Align-LoRA доступным для организаций с ограниченными вычислительными мощностями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Align-LoRA представляет собой важное достижение в области PEFT и MTL, показывая, что упрощенные модели с высоким рангом и выравниванием представлений могут быть более эффективными, чем сложные многокомпонентные системы. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и масштабируемости этого подхода, а также на его применении в более широком диапазоне задач и доменов.
Annotation:
Parameter-Efficient Fine-Tuning (PEFT) is essential for adapting Large Language Models (LLMs). In practice, LLMs are often required to handle a diverse set of tasks from multiple domains, a scenario naturally addressed by multi-task learning (MTL). Within this MTL context, a prevailing trend involves LoRA variants with multiple adapters or heads, which advocate for structural diversity to capture task-specific knowledge. Our findings present a direct challenge to this paradigm. We first show tha...
ID: 2508.05078v1 cs.CL, cs.AI
Авторы:

Zihao Yi, Delong Zeng, Zhenqing Ling, Haohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются мощным инструментом в области обработки естественного языка, но их производительность чувствительна к контексту и структуре входных данных. Одной из ключевых проблем является позиционная зависимость, когда информация, расположенная в определённых позициях ввода, получает непропорциональное внимание модели. Это может приводить к неоптимальному использованию критически важной информации, особенно в таких задачах, как многошаговая обработка вопросов (multi-hop QA) и обучение с примерами (few-shot in-context learning). Существующие исследования показали, что LLMs часто предпочитают обрабатывать информацию, расположенную в начале или конце последовательности, игнорируя средние элементы. Такая позиционная асимметрия, называемая в работе "attention basin", может значительно влиять на эффективность моделей. Однако механизмы этой явлености и стратегии её коррекции до сих пор не были полностью изучены. Мотивацией данного исследования является необходимость понимания того, как контекстуальная позиция влияет на внимание LLMs, и разработка практических методов для оптимизации этого процесса. Целью является улучшение производительности моделей без изменения их архитектуры или параметров. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Attention-Driven Reranking (AttnRank), который направлен на коррекцию позиционной зависимости LLMs. Метод состоит из двух этапов: 1. **Оценка позиционного внимания**: Используется небольшой калибровочный набор данных для определения внутренних предпочтений модели по вниманию к различным позициям в последовательности. 2. **Реранжирование входных данных**: На основе полученных данных производится перестановка элементов (например, документов или примеров) таким образом, чтобы критически важная информация была расположена в позициях с высоким вниманием модели. AttnRank является модельно-агностичным, не требует дополнительного обучения и может быть легко интегрирован в существующие системы. Он предлагает минимальный вычислительный оверхед и подходит для различных архитектур LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух задачах: многошаговой обработке вопросов (multi-hop QA) и обучении с примерами (few-shot in-context learning). Для экспериментов были использованы данные из различных доменов, включая текстовые корпуса и веб-документы. Результаты показали, что AttnRank значительно улучшает производительность моделей на различных архитектурах и масштабах LLMs. Улучшения были зафиксированы на 10 различных моделях, включая облачные и локальные варианты. Метод не требовал изменения параметров моделей, что делает его высокопрактичным. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AttnRank имеет широкое применение в областях, где критическая информация должна быть эффективно обработана LLMs. Это включает задачи вопросов и ответов, извлечения информации, и автоматическое обобщение текста. Преимущества метода включают в себя простоту интеграции, низкий вычислительный затраты и совместимость с различными моделями. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Работа демонстрирует важность контекстуальной позиции в обработке информации LLMs и предлагает эффективный метод для её коррекции. Будущие исследования могут фокусироваться на дальнейшем улучшении AttnRank, включая адаптацию для других типов задач и моделей. Также предлагается исследовать влияние других факторов, таких как длина последовательности и тип входных данных, на эффективность метода.
Annotation:
The performance of Large Language Models (LLMs) is significantly sensitive to the contextual position of information in the input. To investigate the mechanism behind this positional bias, our extensive experiments reveal a consistent phenomenon we term the attention basin: when presented with a sequence of structured items (e.g., retrieved documents or few-shot examples), models systematically assign higher attention to the items at the beginning and end of the sequence, while neglecting those ...
ID: 2508.05128v1 cs.CL, cs.AI
Авторы:

Chang Hong, Minghao Wu, Qingying Xiao, Yuchi Wang, Xiang Wan, Guangjun Yu, Benyou Wang, Yan Hu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие технологий на базе ИИ, в том числе больших языковых моделей (Large Language Models, LLMs), приводит к их все более широкому использованию в сфере здравоохранения. Однако эти технологии не всегда отвечают высоким стандартам этического решения, что является критическим фактором для их применения в реальной медицинской практике. Традиционные методы оценки LLMs часто не учитывают их способность применять этические принципы в динамических и сложных клинических сценариях. Тем не менее, в медицине широко применяется подход Principlism, основанный на четырех фундаментальных принципах: Благотворность (Beneficence), Невредность (Nonmaleficence), Автономность (Autonomy) и Справедливость (Justice). Эти принципы лежат в основе этических решений, однако существующие бенчмарки не дают достаточно полного представления о том, насколько хорошо LLMs могут применять эти принципы в практических ситуациях. Недостаточность инструментов для оценки этического поведения LLMs создает риск их неправильного использования, что может привести к неэтичным решениям в клинической практике. Таким образом, необходимо разработать комплексную систему оценки, которая позволит диагностировать слабые стороны LLMs в этическом рассуждении и поможет создавать более ответственные и эффективные медицинские ИИ-системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представили PrinciplismQA, комплексный бенчмарк, состоящий из 3 648 вопросов, специально разработанных для оценки выраженности этических принципов в LLMs. Бенчмарк основан на четырёх ключевых принципах Principlism и включает два типа вопросов: многоВыборные, созданные на основе авторитетных учебников по медицинской этике, и открытые вопросы, основанные на кейс-стадиях из медицинской литературы. Вопросы были проверены и валидированы медицинскими экспертами, обеспечивая высокий уровень качества и релевантность данных. Каждый вопрос оценивает, насколько хорошо LLM понимает и применяет конкретный этический принцип в заданном сценарии. PrinciplismQA также включает в себя сценарии, требующие балансировки между принципами, что позволяет выявить сложности в применении LLMs в реальных клинических ситуациях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе экспериментов было проанализировано поведение различных LLMs, включая как открытые, так и закрытые модели. Результаты показали значительную проблему в применении принципа Благотворности, где многие модели страдают от перекоса в пользу других принципов, таких как Справедливость или Автономность. Закрытые модели с высокими общими способностями демонстрируют лучшие результаты на бенчмарке, но даже они сталкиваются с трудностями в динамическом применении этических принципов. Исследование также показало, что fine-tuning моделей на медицинских данных может улучшить их этическую компетентность, но для достижения балансированного и надежного решения требуется более глубокая интеграция медицинского этического знания. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ PrinciplismQA предлагает практический инструмент для диагностики и улучшения этического поведения LLMs в медицинской практике. Он может быть использован для оценки новых моделей, а также для идентификации слабых мест в существующих системах. Это может помочь разработчикам создавать более ответственные и эффективные медицинские ИИ-системы, которые будут лучше адаптированы к реальным клиническим сценариям. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ PrinciplismQA является важной шагом в направлении создания более этически ответственных медицинских ИИ-систем. Он выявляет ключевые проблемы в применении этических принципов LLMs и предлагает структурированный подход к их решению. Будущие исследования могут фокусироваться на улучшении fine-tuning методов и разработке новых бенчмарков для оценки этических способностей LLMs в других областях прикладного использования.
Annotation:
The integration of large language models into healthcare necessitates a rigorous evaluation of their ethical reasoning, an area current benchmarks often overlook. We introduce PrinciplismQA, a comprehensive benchmark with 3,648 questions designed to systematically assess LLMs' alignment with core medical ethics. Grounded in Principlism, our benchmark features a high-quality dataset. This includes multiple-choice questions curated from authoritative textbooks and open-ended questions sourced from...
ID: 2508.05132v1 cs.CL, cs.AI
Авторы:

Haonan Shangguan, Xiaocui Yang, Shi Feng, Daling Wang, Yifei Zhang, Ge Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные социальные сети стали мощным генератором мультимодального контента, объединяющего текст, изображения, аудио и видео. Это стимулировало активное развитие области Мультимодального Сентимент-Анализа (MSA) - технологии автоматического определения эмоциональной окраски контента на основе анализа нескольких типов данных одновременно. Большие языковые модели (LLM) значительно ускорили прогресс в этой области, предоставляя доступ к обширным знаниям и продвинутым возможностям рассуждения. Однако существующие подходы сталкиваются с критическим противоречием. Большинство современных решений полагаются на тяжеловесные многомодальные LLM (MLLM) с миллиардами параметров для классификации сентимента. Эти модели требуют значительных вычислительных ресурсов, включая мощные GPU и большие объемы оперативной памяти, что делает их непригодными для развертывания в условиях ограниченных ресурсов - например, на мобильных устройствах, встроенных системах или edge-вычислениях. Критическая проблема заключается в том, что существующие методы игнорируют необходимость автономной генерации мультимодальных сентимент-рассуждений в условиях ресурсных ограничений. Традиционные подходы либо полностью опускают этап рассуждения, либо выполняют его на стороне мощных серверов. Это приводит к "черному ящику" классификации, где пользователи получают результат без объяснения логики принятия решений, что критично для многих практических приложений, включая медиа-мониторинг, финансовый анализ и системы поддержки принятия решений. Авторы статьи формулируют новую задачу - Joint Multimodal Sentiment Reasoning and Classification (JMSRC), которая требует одновременной генерации цепочек мультимодальных сентимент-рассуждений и классификации сентимента с использованием только легковесной модели. Это представляет собой значительное отклонение от существующих практик и требует разработки принципиально новых методов, способных сжать знания и способности к рассуждению из тяжеловесных MLLM в компактные модели без критической потери качества. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи JMSRC авторы предлагают инновационную модель MulCoT-RD (Multimodal Chain-of-Thought Reasoning Distillation), основанную на парадигме дистилляции знаний "Учитель-Ассистент-Студент". Эта трехуровневая архитектура специально разработана для преодоления ограничений развертывания в условиях ограниченных ресурсов. На верхнем уровне используется высокопроизводительная многомодальная большая языковая модель (MLLM) в качестве "Учителя". Эта модель с миллиардами параметров используется для генерации первоначального датасета цепочек рассуждений (Chain-of-Thought), где каждый пример включает не только исходные мультимодальные данные и правильную метку сентимента, но также подробное пошаговое обоснование, объясняющее, как различные модальности (текст, изображения, аудио) вносят вклад в финальное решение. Средний уровень представлен моделью-"Ассистентом" среднего размера, которая обучается с использованием механизма мультизадачного обучения. Ассистент одновременно учится выполнять две задачи: генерацию цепочек рассуждений, мимикрируя поведение Учителя, и классификацию сентимента. Это обеспечивает плавный переход от абстрактных рассуждений тяжеловесной модели к более конкретным и применимым к легковесным архитектурам паттернам. Ключевым элементом является "Студент" - легковесная модель с всего 3 миллиардами параметров, которая проходит совместное обучение для эффективной генерации мультимодальных сентимент-рассуждений и классификации. Студент использует технику дистилляции знаний не только для переноса предсказательной способности, но и для сохранения способности к рассуждению. Архитектура включает специализированные механизмы внимания для обработки различных модальностей и кросс-модальную интеграцию, позволяющую эффективно объединять информацию из текстовых, визуальных и аудио источников. Процесс обучения включает несколько этапов: инициализация через дистилляцию от Ассистента, мультизадачное обучение с балансировкой между генерацией рассуждений и классификацией, а также дообучение на целевых данных каждого конкретного датасета. Это обеспечивает высок
Annotation:
The surge in rich multimodal content on social media platforms has greatly advanced Multimodal Sentiment Analysis (MSA), with Large Language Models (LLMs) further accelerating progress in this field. Current approaches primarily leverage the knowledge and reasoning capabilities of parameter-heavy (Multimodal) LLMs for sentiment classification, overlooking autonomous multimodal sentiment reasoning generation in resource-constrained environments. Therefore, we focus on the Resource-Limited Joint M...
ID: 2508.05234v1 cs.CL, cs.AI
Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.
Annotation:
Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neuron...
ID: 2508.05239v1 cs.CL, cs.AI, cs.LG
Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.
Annotation:
Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Supp...
ID: 2508.05337v1 cs.CL, cs.AI, cs.LG
Авторы:

Zhong Ken Hew, Jia Xin Low, Sze Jue Yang, Chee Seng chan

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение широко распространены Large Language Models (LLMs), которые используются для различных приложений включая генерацию текста, перевод языков, и понимание контекста. Однако, эти модели часто показывают культурные смещения, которые возникают из-за того, что их обучение основано на данных, преимущественно собранных из высоко-ресурсных языков, таких как английский и китайский. Это приводит к недостатку точного представления и оценки разнообразных культурных контекстов, особенно в низко-ресурсных языковых областях. Такие смещения могут приводить к неточному представлению культурных аспектов, что является критическим фактором в многокультурных обществах. Малайзия, как многокультурная и многоязычная страна, представляет собой отличный пример места, где такие культурные смещения могут проявляться. Однако, существующие бенчмарки для оценки LLMs редко учитывают уникальные культурные аспекты малайзийского контекста, особенно когда речь идет о языке Бахаса Мелайу. Это создает проблему для разработки моделей, которые могут точно понимать и оценивать культурные нюансы в таких областях. Для решения этой проблемы, авторы предлагают MyCulture, бенчмарк, ориентированный на оценку LLMs в контексте малайзийской культуры. Он охватывает шесть ключевых областей: искусство, одежда, обычаи, развлечения, еда, и религия, представленные на языке Бахаса Мелайу. Цель этого бенчмарка — обеспечить более точную и культурно-чувствительную оценку LLMs, особенно в условиях низко-ресурсных языков. ## ПРЕДЛОЖЕННЫЙ МЕТОД MyCulture предлагает новый подход к оценке LLMs с помощью открытых многовыборных вопросов, которые не имеют предопределенных вариантов ответов. Этот формат позволяет сократить вероятность угадывания ответов и снизить влияние форматного биаса. Авторы предлагают теоретическое обоснование эффективности этой структуры, которая повышает справедливость и дискриминативную силу оценки. Кроме того, бенчмарк рассматривает структурный биас, сравнивая производительность моделей на структурированных и свободно-форматных выходных данных. Также оценивается языковой биас через мультиязычные вариации призывов (prompts). Это позволяет выявить различия в культурном понимании между различными региональными и международными LLMs. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках эксперимента были оценены различные LLMs на базе MyCulture. Результаты показали значительные различия в культурном понимании между моделями. Особенно, модели, обученные на данных с высоко-ресурсными языками, демонстрировали меньшую точность в понимании малайзийской культуры по сравнению с моделями, которые более ориентированы на низко-ресурсные языки. Было также выявлено, что открытый формат вопросов позволяет более точно оценивать понимание моделями культурных контекстов, чем традиционные методы с заранее определенными ответами. Это подтверждает теоретическое обоснование преимуществ открытого формата. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MyCulture имеет широкий спектр практических приложений. Он может быть использован для улучшения культурной инклюзивности LLMs, особенно в многокультурных странах как Малайзия. Это может помочь в разработке моделей, которые лучше подходят для приложений в областях культурного понимания, образования, и культурного обмена. Кроме того, этот бенчмарк может стать важной частью процесса разработки более культурно-чувствительных LLMs, которые могут быть использованы в различных секторах, включая туризм, образование, и социальные сервисы. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MyCulture представляет собой важное достижение в области культурно-чувствительного оценки LLMs. Он выделяется своей уникальной методологией и форматом открытых вопросов, который позволяет более точно оценивать культурные нюансы. В будущем, этот подход может быть расширен на другие низко-ресурсные языки и культурные контексты, чтобы создать более инклюзивные и точные модели языкового понимания. Дальнейшие исследования могут фокусироваться на разработке более сложных бенчмарков, которые будут учитывать еще больше культурных и языковых аспектов, а также на создании моделей, которые могут лучше адаптироваться к многокультурным контекстам.
Annotation:
Large Language Models (LLMs) often exhibit cultural biases due to training data dominated by high-resource languages like English and Chinese. This poses challenges for accurately representing and evaluating diverse cultural contexts, particularly in low-resource language settings. To address this, we introduce MyCulture, a benchmark designed to comprehensively evaluate LLMs on Malaysian culture across six pillars: arts, attire, customs, entertainment, food, and religion presented in Bahasa Mela...
ID: 2508.05429v1 cs.CL, cs.AI
Авторы:

Yilin Xiao, Chuang Zhou, Qinggang Zhang, Su Dong, Shengyuan Chen, Xiao Huang

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Language Models (LLMs) достигли значительных успехов в решении разнообразных задач, однако они сталкиваются со серьёзными ограничениями в области знаний. Когда речь идёт об интенсивно знаний требующих задачах, LLMs часто выдают неверные или вымышленные ответы, так называемые галлюцинации. Традиционные подходы, такие как Retrieval-Augmented Generation (RAG), пытаются решить эту проблему путём интеграции внешнего знания, но они не всегда эффективны в сложных сценариях, требующих сложного логического вывода. Они ограничены прямым поиском по семантическим областям и не обладают структурированной логической организацией. Для решения этой проблемы, исследователи стремятся создать более эффективный метод, который мог бы сочетать внешний поиск знаний с логическим выводом. Идея состоит в том, чтобы разбить сложные вопросы на более простые подзадачи, упорядочить их в соответствии с логическими зависимостями, и решать их последовательно, используя предыдущие результаты для направления последующих поисков информации. Такой подход может не только улучшить точность вывода, но и предотвратить распространение ошибок, остановив вывод в случае возникшей неопределённости. ## ПРЕДЛОЖЕННЫЙ МЕТОД В работе предлагается метод Logic-Augmented Generation (LAG), который сочетает в себе систематическое разбор вопросов на подзадачи и зависимостей между ними. Метод разбивает сложные вопросы на более простые, после чего решает их последовательно, используя ответы на предыдущие подзадачи для улучшения поиска информации и вывода. Такая система построена на принципах, изложенных в труде Декарта "Discours de la m\'ethode", которые подчеркивают важность систематического разбиения сложной задачи на простые компоненты. LAG состоит из нескольких этапов: 1. **Разбор вопросов на подзадачи:** Сложные вопросы разбиваются на атомарные подзадачи, которые организованы в логической последовательности. 2. **Зависимости между подзадачами:** Для каждой подзадачи определяются зависимости от предыдущих решений, что позволяет использовать результаты предыдущих шагов в качестве контекста для последующих. 3. **Логическая терминация:** Если в процессе решения возникает неопределённость или невозможность ответов на подзадачи, LAG останавливает дальнейший вывод, что позволяет избежать распространения ошибок. 4. **Синтез решений:** Все полученные результаты подзадач собираются и проверяются, после чего формируется окончательный ответ. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы провести оценку метода LAG, проведены эксперименты на четырёх различных наборах данных, которые позволяют оценить качество логического вывода и способность модели предотвращать галлюцинации. Результаты показывают, что LAG значительно улучшает точность решения задач, снижает частоту галлюцинаций и обеспечивает более надёжное логическое вывода. В экспериментах LAG сравнивается с традиционными подходами RAG, демонстрируя преимущества в решении задач, требующих сложного логического вывода. Благодаря систематическому разбору подзадач и логической терминации, LAG показывает значительно более высокую точность и согласованность ответов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод LAG имеет широкие возможности применения в областях, требующих высокой точности и логического вывода, таких как медицинский диагноз, юридический анализ, финансовый консультирование и другие знаний-интенсивные сферы. Благодаря способности разбивать сложные вопросы на простые компоненты и проводить последовательный вывод, LAG может улучшить качество решений в этих областях, снизив риск ошибок и галлюцинаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый подход к решению задач знаний-интенсивных сценариев, который сочетает логический вывод с внешним поиском знаний. Результаты показывают, что LAG может значительно улучшить качество решений в сравнении с традиционными подходами. Будущие исследования могут сосредоточиться на дальнейшем улучшении методологии, включая расширение её возможностей для работы с более сложными и нечеткими данными, а также применение LAG в реальных системах.
Annotation:
Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet exhibit critical limitations in knowledge-intensive tasks, often generating hallucinations when faced with questions requiring specialized expertise. While retrieval-augmented generation (RAG) mitigates this by integrating external knowledge, it struggles with complex reasoning scenarios due to its reliance on direct semantic retrieval and lack of structured logical organization. Inspired by ...
ID: 2508.05509v1 cs.CL, cs.AI
Авторы:

Harsh Nishant Lalai, Raj Sanjay Shah, Jiaxin Pei, Sashank Varma, Yi-Chia Wang, Ali Emami

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные большие языковые модели (LLM) проходят тщательную настройку для минимизации явных социальных и культурных предвзятостей. Однако, несмотря на эти усилия, в моделях сохраняются тонкие неявные искажения, корни которых уходят в данные, использованные при предобучении. Традиционный подход к выявлению таких искажений основан на прямом опросе моделей с помощью заранее подготовленных вопросов, что часто приводит к срабатыванию защитных механизмов и получению осторожных, политкорректных ответов. Этот метод ограничен тем, что не позволяет исследовать спонтанное поведение моделей в естественных условиях. Авторы статьи предлагают новый подход: вместо того чтобы задавать вопросы модели, они наблюдают, как модель сама формулирует вопросы для решения задачи дедукции. Для этого была выбрана игра в "20 вопросов" - мультитурнирная дедуктивная задача, где модель должна угадать задуманную сущность, задавая вопросы, на которые можно отвечать "да", "нет" или "не имеет значения". Эта игра идеально подходит для исследования, так как позволяет наблюдать, как модель сама инициирует и направляет процесс рассуждений. Особое внимание уделяется географическим различиям в способности моделей дедуцировать сущности из разных регионов мира. Существующие исследования сконцентрированы на англоязычном контенте и западноцентричном взгляде на мир, что может привести к систематическому занижению качества работы моделей с объектами из Глобального Юга и Востока. Это создает проблему справедливости и инклюзивности в применении ИИ систем на глобальном уровне. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для систематического исследования географических различий авторы разработали новый датасет Geo20Q+, включающий 400 сущностей из разных регионов мира. Датасет содержит две категории объектов: 200 известных людей (политики, артисты, спортсмены, ученые) и 200 культурно значимых объектов (еды, достопримечательности, животные). Сущности распределены по 7 регионам: Северная Америка, Южная Америка, Европа, Африка, Ближний Восток, Азия и Австралия/Океания. Исследование охватывает 6 популярных LLM: GPT-4o, GPT-3.5-turbo, Claude-3-sonnet, Gemini-1.5-pro, Llama-3-70b и Mixtral-8x7b. Модели тестировались в двух конфигурациях игры: канонической версии с ограничением в 20 вопросов и версии с неограниченным количеством попыток. Эксперименты проводились на 7 языках: английском, хинди, китайском, японском, французском, испанском и турецком. Для проведения экспериментов была разработана автоматизированная система, где одна модель выступает ведущим (загадывает сущность), а другая - угадывающим. Угадывающая модель получает только категорию сущности (человек или объект) и должна сформулировать последовательность вопросов для дедукции правильного ответа. Ведущая модель отвечает на основе заранее подготовленных фактов о сущности. Авторы также проанализировали корреляцию между производительностью моделей и такими метриками, как количество просмотров страниц Википедии и частота упоминания в корпусе предобучения. Это позволило количественно оценить влияние представленности данных на качество дедукции. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты выявили значительные географические диспропорции в успешности дедукции сущностей. Модели демонстрируют существенно более высокую точность при угадывании объектов из Глобального Севера по сравнению с Глобальным Югом (разница до 35 процентных пунктов). Аналогичная тенденция наблюдается при сравнении Глобального Запада и Востока. Самые высокие показатели достигнуты для сущностей из Европы и Северной Америки, тогда как объекты из Африки и Южной Америки демонстрируют наихудшие результаты. Интересно, что язык взаимодействия оказал минимальное влияние на качество дедукции. Различия в точности между английским и другими языками составляли менее 5 процентных пунктов, что говорит о более глубоких, чем языковые барьеры, факторах, влияющих на производительность
Annotation:
Large Language Models (LLMs) have been extensively tuned to mitigate explicit biases, yet they often exhibit subtle implicit biases rooted in their pre-training data. Rather than directly probing LLMs with human-crafted questions that may trigger guardrails, we propose studying how models behave when they proactively ask questions themselves. The 20 Questions game, a multi-turn deduction task, serves as an ideal testbed for this purpose. We systematically evaluate geographic performance disparit...
ID: 2508.05525v1 cs.CL, cs.AI
Авторы:

Guang Yang, Xinyang Liu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Language Models (LLMs) достигли значительных успехов в задачах многовариантных ответов (Multiple-Choice Question Answering, MCQA), став мощным инструментом для решения широкого круга задач. Однако, несмотря на их продвинутые возможности, их неоднократно выявлялись проблемы, связанные с недостаточной надежностью. Такие недостатки, как генерация неточных или вымышленных фактов (hallucination) и чрезмерное уверенность в неверных ответах (overconfidence), препятствуют их применению в областях с высоким уровнем риска, где надежность и точность критически важны. Эти проблемы особенно остры в контексте "черного ящика" (black-box settings), когда внутренняя работа модели непонятна, и пользователи не могут оценить надежность предлагаемых ответов. Таким образом, необходимо разработать методы, которые позволят оценивать неопределенность (uncertainty quantification) в ответах моделей, обеспечивая высокую надежность даже в условиях, когда внутренний механизм модели недоступен для анализа. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод основанный на частотном анализе (frequency-based) и конформной прогнозирование (conformal prediction, CP). Здесь, для каждого вопроса, модель генерирует несколько независимых выборок ответов из своего распределения. Тогда, из всех этих выборок, выбирается тот, который встречается наиболее часто. Этот "наиболее частотный" ответ используется для вычисления предсказательной энтропии (Predictive Entropy, PE), которая служит мерой неопределенности. В отличие от традиционных методов, основанных на логитах (logit-based probabilities), этот подход не требует доступа к внутренним параметрам модели и может быть применен в "черном ящике". Этот метод также позволяет контролировать частоту ошибок (empirical miscoverage rate) в заданных уровнях риска, что делает его надежным инstrumentом для оценки неопределенности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования, эксперименты проводились на шести различных LLMs и четырех датасетах (MedMCQA, MedQA, MMLU, MMLU-Pro). Результаты показали, что частотный подход к оценке неопределенности (frequency-based PE) значительно превосходит логит-базированный подход (logit-based PE) в различении верных и неверных ответов, измеренном по метрике AUROC (Area Under the Receiver Operating Characteristic Curve). Кроме того, метод эффективно контролирует частоту ошибок (empirical miscoverage rate) в пределах заданных рисков, что подтверждает его надежность. Эти результаты демонстрируют, что частотный анализ может служить эффективным заменой логит-базированной вероятности в "черных ящиках". ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в областях, где надежность ответов критична, таких как медицинская диагностика, финансовые консультации и юридические решения. Благодаря его способности обеспечить гарантии покрытия (coverage guarantees), этот метод может увеличить доверие к LLMs в практических приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен distribution-free, model-agnostic фреймворк для надежной оценки неопределенности в MCQA, который может быть применен к любой модели в условиях "черного ящика". Будущие исследования могут фокусироваться на улучшении эффективности этого подхода и его адаптации для других доменов и задач.
Annotation:
Large Language Models (LLMs) have shown remarkable progress in multiple-choice question answering (MCQA), but their inherent unreliability, such as hallucination and overconfidence, limits their application in high-risk domains. To address this, we propose a frequency-based uncertainty quantification method under black-box settings, leveraging conformal prediction (CP) to ensure provable coverage guarantees. Our approach involves multiple independent samplings of the model's output distribution ...
ID: 2508.05544v1 cs.CL, cs.AI
Показано 2011 - 2020 из 2042 записей