📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

2025-08-13

Авторы:

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh

## Контекст Актуальность исследования связана с быстрым развитием систем на основе Больших Лингвистических Моделей (LLM), которые применяются для обеспечения систем роботов-техпомощников. Одной из основных проблем в этой области является недостаточная оценка устойчивости таких систем к внесению обобщенных изменений в фактические вопросы. Эти изменения, называемые "обфускацией", могут состоять в искажении именованных сущностей, добавлении развлекательных материалов или смыслового перегружения. Без тестирования таких изменений невозможно оценить надежность и точность LLMs в работе с вопросами и ответами. Исследование посвящено выявлению этих проблем и разработке системы для их систематического исследования. ## Метод Методология исследования основывается на разработке многоуровневой системы обфускации, которая включает три различных типа изменений в вопросах. **Named-Entity Indirection** состоит в замене именованных сущностей (например, ФИО, местами происшествий) на их формальные представления (например, "Субъект 1"). **Distractor Indirection** включает в себя вывод отвлеченных ответных вариантов, которые не соответствуют фактическим данным. **Contextual Overload** предполагает добавление лишней информации, которая может сбить с толку модель. Таким образом, ObfusQAte представляет собой новую методологию для тестирования LLM на систематические искажения вопросов в ходе имитации реальных условий работы. ## Результаты В ходе экспериментов, проведенных с использованием широкого круга данных, было изучено поведение LLMs в ответ на обфусцированные вопросы. Основной показатель — это уменьшение точности ответов, возрастающее в небольших шагах при наличии обфускации. Модели не только предоставляют неточные ответы, но и вводят ложноположительные варианты. Эти результаты были получены при оценке моделей на объеме данных, представляющем собой широкую спектр текстов, включая новостные материалы, энциклопедические статьи и справочные данные. ## Значимость Результаты имеют важное значение для развития роботов-техпомощников, так как позволяют оценить устойчивость LLM к ошибкам при обобщенных вопросах. Обфускация позволяет выявить ошибки в моделях, мотивируя разработку методов улучшения их надежности. Эта работа может быть применена в сферах, где точность ответов критична, например, в медицине, юриспруденции и финансовых системах. Она также открывает пути для развития новых моделей устойчивых к таким изменениям. ## Выводы Разработанная ObfusQAte-фреймворк предоставляет многоуровневый подход для оценки устойчивости LLM к обфускации вопросов. Основные достижения включаю

Annotation:

The rapid proliferation of Large Language Models (LLMs) has significantly contributed to the development of equitable AI systems capable of factual question-answering (QA). However, no known study tests the LLMs' robustness when presented with obfuscated versions of questions. To systematically evaluate these limitations, we propose a novel technique, ObfusQAte and, leveraging the same, introduce ObfusQA, a comprehensive, first of its kind, framework with multi-tiered obfuscation levels designed...

ID: 2508.07321v1 cs.CL, cs.AI, cs.LG, I.2.7

arXiv PDF

📄 LPI-RIT at LeWiDi-2025: Improving Distributional Predictions via Metadata and Loss Reweighting with DisCo

2025-08-13

Авторы:

Mandira Sawkar, Samay U. Shetty, Deepak Pandita, Tharindu Cyril Weerasooriya, Christopher M. Homan

#### Контекст Область исследования сосредоточена на моделировании и анализе аннотаторских диспутов в контексте машинного обучения. Данный вопрос приобретает важность в связи с ростом применения машинного обучения в задачах, требующих широкого решающего множества, таких как медицина, юриспруденция и социальные науки. Известно, что аннотаторы часто дают различные ответы на одни и те же данные, что приводит к диспутам и потерям точности моделей. Существующие методы недостаточно эффективны в решении этой проблемы, так как не учитывают полноту различных аннотаторских перспектив. Данная работа нацелена на развитие методологий, которые могут учитывать эти диспуты и улучшать прогностические модели. #### Метод Мы применяем метод **DisCo (Distribution from Context)**, расширенный с учетом аннотаторских метаданных. Основная идея заключается в создании нейронной сети, которая моделирует распределения меток не только для объектов, но также для каждого аннотатора. Мы внедрили несколько улучшений, включающих: 1. Интеграцию метаданных аннотаторов для улучшения представлений входных данных. 2. Модификацию функции потерь для более точного отражения диспутов. 3. Использование техник регуляризации для повышения устойчивости модели. Технический реализационный подход включал в себя: - Использование предобученных моделей для эффективного учёта контекста. - Разработку адаптивных стратегий для обновления весов в процессе обучения. #### Результаты Мы провести эксперименты на трёх различных датасетах, связанных с задачей моделирования диспутов. Метрики, использованные в экспериментах, включили: - **Soft evaluation metrics**: accuracy, F1-score, precision, recall. - **Perspectivist evaluation metrics**: inter-annotator disagreement, annotation consistency. Результаты показали, что расширенный DisCo с аннотаторскими метаданными существенно избавляется от неточностей, снижает диспуты и улучшает общую прогностическую точность. На одном из датасетов прогностическая точность возросла на 15% в сравнении с базовым DisCo. #### Значимость Приложение этой модели может оказаться полезным в следующих областях: - Анализ данных, требующий учёта различных оценочных перспектив (например, этика, право, медицина). - Оценка качества аннотаций в машинном обучении. - Улучшение систем машинного транслятора и поиска текстов. Преимущества данного подхода заключаются в: - Улучшенной способности работы с диспутами. - Увеличении точности и стабильности модели. #### Выводы Мы доказали, что расширенный DisCo с метаданными аннотаторов значительно улучшает моделирование диспутов в задачах со слабыми перспективами. Будущие исследования будут направлены на:

Annotation:

The Learning With Disagreements (LeWiDi) 2025 shared task is to model annotator disagreement through soft label distribution prediction and perspectivist evaluation, modeling annotators. We adapt DisCo (Distribution from Context), a neural architecture that jointly models item-level and annotator-level label distributions, and present detailed analysis and improvements. In this paper, we extend the DisCo by incorporating annotator metadata, enhancing input representations, and modifying the loss...

ID: 2508.08163v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling

2025-08-13

Авторы:

Zhuohao Yu, Xingru Jiang, Weizheng Gu, Yidong Wang, Shikun Zhang, Wei Ye

## Контекст На протяжении последних нескольких лет искусственные нейронные сети с последовательностным поведением (LLM) стали важной частью современных технологий, используемых в различных областях, включая генерацию текста, перевод и анализ языка. Однако с этим повышением применения возникают новые задачи, такие как вопросы юридической ответственности за содержимое, создаваемое этими технологиями, а также борьба с нежелательными материалами, такими как публикация массовых ложных новостей. Watermarking позволяет адресовать эти проблемы, обеспечивая возможность отслеживать источник текста и увеличивая прозрачность в массовом текстовом создании. Тем не менее, существующие методы watermarking имеют значительные ограничения: они требуют доступа к внутренней архитектуре модели, компрометируют качество генерируемого текста или непригодны для работы с API-моделями и многоязычными сценариями. Из-за этого необходимо развитие универсального, эффективного и качественного подхода для watermarking LLM. ## Метод SAEMark представляет собой новую фреймворк для пост-хок watermarking LLM, который не требует изменения модели или доступа к ее внутреннему состоянию. Этот метод основывается на анализе выданного LLM-текста в реальном времени с использованием вычислительно эффективного алгоритма режима отклонения выборки (rejection sampling). Основная идея заключается в том, чтобы искать текст, который соответствует заранее определенным статистическим характеристикам, заданным ключом watermarking. Этот ключ генерируется на основе личных символов, которые не должны были быть включены в исходный текст. SAEMark может работать с любым LLM вне зависимости от его архитектуры и размера, включая облачные сервисы. Благодаря использованию отказов в выборке, он позволяет добиться высокого качества текста, не изменяя модель или генерируемые тексты. ## Результаты Для проверки эффективности SAEMark проведены эксперименты на 4 различных наборах данных, включая основные английские и многоязычные тексты. Результаты показали, что фреймворк обеспечивает высокую точность восстановления watermark, достигая 99.7% на английском языке и показывая стабильную работу на других языках. Кроме того, SAEMark поддерживает возможность настройки watermark-а на несколько битов для разных целей, таких как указания авторства или борьба с ложными новостями. Важным достижением является то, что SAEMark позволяет достичь этих результатов при помощи простого интерфейса inference-time, не требуя дополнительного обучения или изменения модели. ## Значимость SAEMark демонстрирует значительный потенциал для различных применений в области акцентирования инф

Annotation:

Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. O...

ID: 2508.08211v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 One Size Does Not Fit All: A Distribution-Aware Sparsification for More Precise Model Merging

2025-08-12

Авторы:

Yingfeng Luo, Dingyang Lin, Junxin Wang, Ziqiang Xu, Kaiyan Chang, Tong Zheng, Bei Li, Anxiang Ma, Tong Xiao, Zhengtao Yu, Jingbo Zhu

## Контекст Model merging является перспективным подходом в области многозадачного обучения без доступа к данным. Он основывается на объединении нескольких многозадачных моделей в одну, что позволяет получить модель с улучшенными свойствами. Одной из ключевых техник в этом процессе является спарсификация, призванная уменьшить многообразие параметров модели, чтобы снизить влияние на другие задачи. Однако существующие подходы применяют однородную стратегию спарсификации, которая не учитывает различность структуры и статистических свойств параметров модели. Это ведет к неэффективности в уменьшении интерференции между задачами. Наше исследование адресует эту проблему, предлагая адаптивный подход к спарсификации, который учитывает характеристики каждого параметра. ## Метод Мы предлагаем **TADrop** (\textbf{T}ensor-wise \textbf{A}daptive \textbf{Drop}) - адаптивную стратегию спарсификации, которая присваивает уникальные уровни спарсификации для каждого тензора параметров на основе их распределения. Идея заключается в том, что более делимостные тензоры могут быть более агрессивно спарсифицированы, в то время как более критичные сохраняются. Мы реализуем TADrop как простой модуль, который можно интегрировать с различными существующими методами спарсификации. Это позволяет улучшить их результаты без дополнительных изменений в архитектуре. ## Результаты Мы провели эксперименты на различных задачах (визуальной обработке, текстовом обучении, мультимодальных задачах) и моделях (ViT, BEiT). Метод TADrop показал существенные выигрыши в производительности по сравнению с базовыми методами. Например, при совместном применении с одной из лучших стратегий объединения, TADrop увеличил средний результат на 2.0% для 8-и задач с моделью ViT-B/32. Эти результаты доказывают, что TADrop способен более точно уменьшать интерференцию между задачами, оптимизируя уровни спарсификации в соответствии с распределениями параметров. ## Значимость Наш подход может быть применен во многих аспектах многозадачного обучения, где важно минимизировать влияние одной задачи на другие. Он предоставляет более точный и эффективный способ спарсификации, адаптируясь к специфике модели. Это может привести к улучшению потенциального влияния спарсификации в будущих исследованиях по моделям с функциональным сокращением параметров. ## Выводы Предложенный подход TADrop доказал свою эффективность в улучшении результатов спарсификации. Он является простым и эффективным модулем, который может быть легко интегрирован в различные существующие стратегии. Н

Annotation:

Model merging has emerged as a compelling data-free paradigm for multi-task learning, enabling the fusion of multiple fine-tuned models into a single, powerful entity. A key technique in merging methods is sparsification, which prunes redundant parameters from task vectors to mitigate interference. However, prevailing approaches employ a ``one-size-fits-all'' strategy, applying a uniform sparsity ratio that overlooks the inherent structural and statistical heterogeneity of model parameters. This...

ID: 2508.06163v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Classification is a RAG problem: A case study on hate speech detection

2025-08-12

Авторы:

Richard Willats, Josh Pennington, Aravind Mohan, Bertie Vidgen

## Контекст Классификация вопросов, связанных с модерацией контента, остается вызовом для современных систем модерации. Одним из основных признаков является то, что правила модерации часто меняются, что приводит к необходимости регулярной переобучения моделей. Это не только увеличивает затраты на ресурсы, но и затрудняет достижение высокой точности в классификации. Кроме того, существующие системы часто не демонстрируют достаточной транспарентности, что снижает доверие пользователей и организаций. Учитывая эти проблемы, необходимо разработать методы, которые позволят классификационным системам быстро адаптироваться к изменениям политик модерации, обеспечивая точность и ясность в процессе принятия решений. ## Метод Методология, представленная в статье, основывается на подходе Retrieval-Augmented Generation (RAG). В отличие от традиционных классификационных систем, которые опираются на предварительно обученные параметры, RAG-системы используют внешний источник знаний для оценки контента. В данном случае, источником знаний является политика модерации. Рассматриваемая методика превращает задачу классификации из "этот контент является явлением ненормативных высказываний?" в "этот контент нарушает политику модерации по ненормативным высказываниям?". Это делает процесс классификации более гибким и контекстуализированным. Для реализации возможности RAG использована система Contextual Policy Engine (CPE), которая использует технологии генерирующих моделей для анализа контента и вывода решений на базе политики модерации. ## Результаты Рассмотренная система прошла три эксперимента, посвященных оценке системы классификации на основе RAG. В первом эксперименте система была сравнена с трех ведущих коммерческих системами модерации, и демонстрировала сопоставимую точность классификации. Во втором эксперименте проверялась способность системы взаимодействовать с конкретными группами пользователей, демонстрируя точность в жесткой корректировке политики модерации. Наконец, в третьем эксперименте была проверена возможность системы адаптироваться к изменению политики модерации без переобучения, что демонстрирует динамическую гибкость и транспарентность. Результаты показали, что RAG-системы могут предоставить высокую точность классификации и ясность решений, что является ключевым преимуществом для модерации контента и других классификационных задач. ## Значимость Результаты системы RAG имеют широкие применения в модерации контента, где необходима строгая адаптация к изменяющимся политикам. Кроме того, технология RAG может быть применена в других классификационных за

Annotation:

Robust content moderation requires classification systems that can quickly adapt to evolving policies without costly retraining. We present classification using Retrieval-Augmented Generation (RAG), which shifts traditional classification tasks from determining the correct category in accordance with pre-trained parameters to evaluating content in relation to contextual knowledge retrieved at inference. In hate speech detection, this transforms the task from "is this hate speech?" to "does this ...

ID: 2508.06204v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Memp: Exploring Agent Procedural Memory

2025-08-12

Авторы:

Runnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

## Контекст Large Language Models (LLMs) становятся все более успешными в решении разнообразных задач, но их процедурная память часто оказывается недостаточно устойчивой и гибкой. Эта проблема наблюдается при мануальном программировании памяти или при ее интеграции с статическими параметрами. В настоящей работе рассматривается задача обеспечения агентов с выработкой процедурной памяти, которая была бы изучаемой, обновляемой и жизненно длительной. Такие подходы могут увеличить эффективность агентов и позволить им работать в нестандартных ситуациях, не подразумеваемых при их разработке. ## Метод Методология, предлагаемая в работе, основывается на создании механизмов для построения, восстановления и обновления процедурной памяти. Агенту предлагается два уровня абстракции: пошаговые инструкции и скрипт-ориентированные абстракции. Для этого используется нейронная сеть, которая проанализировала большой объем данных, чтобы сформировать эти уровни абстракции. Изучены различные стратегии для построения, поиска и обновления памяти, которые позволяют агенту взаимодействовать с процедурным знанием в процессе работы. Динамическая система обновления позволяет максимально адаптировать память к новым опытным данным. ## Результаты Для оценки эффективности предложенного подхода проведены эксперименты на двух наборах данных: TravelPlanner и ALFWorld. Эти эксперименты показали, что агенты с динамической процедурной памятью показали высокую эффективность в решении задач, а также существенно улучшили свои результаты в сравнении с базовыми моделями. Также показано, что модели с более сильными предварительно обученными моделями могут быть эффективно использованы для повышения производительности более слабых моделей, если эти модели работают с общей процедурной памятью. ## Значимость Результаты этой работы могут быть применены в различных областях, таких как разработка систем-агентов для управления процессами, диалоговые системы, интеллектуальные системы поддержки решения задач и др. Этот подход увеличивает гибкость, эффективность и устойчивость агентов к изменениям в задачах и условиях работы. Также, он открывает новые возможности для развития методов обучения с подкреплением и динамического управления знаниями. ## Выводы Работа представляет собой значительный шаг в направлении создания устойчивой, обновляемой процедурной памяти для агентов, основанных на LLMs. Она показывает, что подход Memp может быть эффективно использован для улучшения результатов в различных задачах. В будущем могут быть проведены дополнительные исследования для идентификации новых стратегий построения и об

Annotation:

Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose Memp that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, R...

ID: 2508.06433v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Post-training for Efficient Communication via Convention Formation

2025-08-12

Авторы:

Yilun Hua, Evan Wang, Yoav Artzi

Далее приводится подробное резюме научной статьи под названием "Post-training for Efficient Communication via Convention Formation", написанной Yilun Hua, Evan Wang, Yoav Artzi. ## Контекст В современных текстовых генерирующих моделях, включая Large Language Models (LLMs), возникают сложности с адаптацией языка в процессе многократных взаимодействий. Хотя человеческие коммуникации становятся более эффективными в многократных интеракциях, LLMs не способны естественно показывать схожий подход. Наиболее заметным отличием является нехватка возможности участников взаимодействия договориться о ад-хок-конвенциях, которые помогают улучшить эффективность общения. Данный эффект часто наблюдается при работе с текстовыми моделями, которые выделяются нестандартным поведением в многотоновых ситуациях. Изучение этой проблемы может помочь в развитии моделей, которые лучше адаптируются к естественным коммуникационным ситуациям. ## Метод Авторы предлагают метод воспитания моделей, который использует эвристики, чтобы идентифицировать примеры конвенционального поведения в тексте. Метод включает в себя следующие этапы: 1. **Идентификация примеров**: Авторы используют инструменты для автоматической идентификации примеров конвенционального поведения в тексте. 2. **Изменение поведения моделей**: Для изменения поведения моделей во время выполнения, авторы применяют техники на основе обучения на примере (few-shot learning). 3. **Оценка поведения**: Результаты поведения модели оцениваются с помощью базового теста, который измеряет эффективность в текстовых взаимодействиях. Таким образом, авторы предлагают метод, который может быть применен к различным моделям, чтобы улучшить их способность договариваться о конвенциях в текстовых взаимодействиях. ## Результаты Авторы проводят эксперименты на двух новых бенчмарках для оценки способности моделей к конвенциональному поведению. Они используют две эвристически определенные методики: 1. **Набор тестов по интеракциям**: Авторы создали набор тестов, который позволяет исследовать способность моделей к конвенциональному поведению в текстовых интеракциях. Этот набор тестов включает в себя взаимодействия с различными уровнями сложности, чтобы протестировать способность моделей создавать и применять конвенции. 2. **Набор тестов по документ-ориентированному выводу**: Для оценки способности моделей применять конвенциональные подходы в реальных условиях, авторы проводят эксперименты на базе документ-ориентированного вывода, где модели должны делать выводы на основе документов. Эксперименты показали, что в последствии воспитания модели становятся более эффективными в создании и примен

Annotation:

Humans communicate with increasing efficiency in multi-turn interactions, by adapting their language and forming ad-hoc conventions. In contrast, prior work shows that LLMs do not naturally show this behavior. We develop a post-training process to develop this ability through targeted fine-tuning on heuristically identified demonstrations of convention formation. We evaluate with two new benchmarks focused on this capability. First, we design a focused, cognitively-motivated interaction benchmar...

ID: 2508.06482v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 EHSAN: Leveraging ChatGPT in a Hybrid Framework for Arabic Aspect-Based Sentiment Analysis in Healthcare

2025-08-09

Авторы:

Eman Alamoudi, Ellis Solaiman

**Резюме** В статье представлена EHSAN, первая гибридная модель для арабского аспект-базированного мнения в сфере здравоохранения. Арабский язык представляет сложности из-за богатого диалектного разнообразия и недостатка меток аспектного мнения. Разработанная модель EHSAN объединяет машинное обучение с глубоким представлением языка ChatGPT и целенаправленным корректированием человеческим рецензентом, чтобы создать полностью новый языковой ресурс в области здравоохранения. Эта модель обучена на трёх версиях данных: полностью аннотированных человеком, частично аннотированных человеком и полностью подготовленных ChatGPT. Эксперименты показали, что даже с минимальными ручными корректировками модель достигает высокой точности. Меньшее количество классов аспектов также улучшало результаты. Результаты указывают на простоту и эффективность гибридного подхода в создании семантических моделей для арабского языка в здравоохранении. Будущие работы будут направлены на улучшение модели пространством применения и наращивании транспарентности.

Annotation:

Arabic-language patient feedback remains under-analysed because dialect diversity and scarce aspect-level sentiment labels hinder automated assessment. To address this gap, we introduce EHSAN, a data-centric hybrid pipeline that merges ChatGPT pseudo-labelling with targeted human review to build the first explainable Arabic aspect-based sentiment dataset for healthcare. Each sentence is annotated with an aspect and sentiment label (positive, negative, or neutral), forming a pioneering Arabic dat...

ID: 2508.02574v1 cs.CL, cs.AI, cs.LG, cs.SI

arXiv PDF

📄 Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation

2025-08-09

Авторы:

Radhika Dua, Young Joon, Kwon, Siddhant Dogra, Daniel Freedman, Diana Ruan, Motaz Nashawaty, Danielle Rigau, Daniel Alexander Alber, Kang Zhang, Kyunghyun Cho, Eric Karl Oermann

**Резюме** Авторы предлагают **ICARE** (Interpretable and Clinically-grounded Agent-based Report Evaluation) — инновационный подход для оценки качества автоматически сгенерированных радиологических отчетов. Одной из основных проблем в этой области является отсутствие интерпретируемых метрик, которые бы стабильно отражали грамотность отчета с точки зрения клинической актуальности и точности. ICARE основывается на динамическом методе, использующем вопрос-ответ с помощью LLMs-агентов: каждый агент выступает с двумя версиями отчета (генерируемой и истинной) и проводит клинически содержательный диалог, сравнивая ответы. Это заставляет ICARE выделяться за счет прозрачности и понимаемости его результатов. Испытания на клинических экспертах показали, что ICARE намного более точно отражает их оценки по сравнению с предыдущими методами. Анализы пертурбаций подтвердили результаты как надежные и репродуцируемые. ICARE представляет собой значительный шаг в обеспечении надёжности и точности оценки радиологических отчетов.

Annotation:

Radiological imaging is central to diagnosis, treatment planning, and clinical decision-making. Vision-language foundation models have spurred interest in automated radiology report generation (RRG), but safe deployment requires reliable clinical evaluation of generated reports. Existing metrics often rely on surface-level similarity or behave as black boxes, lacking interpretability. We introduce ICARE (Interpretable and Clinically-grounded Agent-based Report Evaluation), an interpretable evalu...

ID: 2508.02808v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

2025-08-09

Авторы:

Chenyang Wang, Liang Wen, Shousheng Jia, Xiangzheng Zhang, Liang Xu

Научная статья Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following рассматривает проблему неэффективного выполнения команд сложным управляющим языковыми моделями (LLMs). Авторы выявляют недостаточное внимание к процессу рассуждения в модели как главную причину несоответствия командам. Решением становится разработка протокола под названием Light-IF, включающего стратегии предварительного просмотра и самопроверки. Эти механизмы включены в тренировочный процесс, который позволяет модели лучше учитывать требования задачи и повышать уровень общей пригодности решений для различных сложностей. Авторы используют сложность задач, реJECTION-семплинг и расширенный финатный тонкий тюнинг с внедрением опорных свойств логического рассуждения. Эксперименты показывают, что Light-IF оказывается эффективной для обучения моделей различных размеров, включая модель Light-IF-32B, которая показывает лучшие результаты по сравнению с опубликованными моделями с меньшим и большим количеством параметров.

Annotation:

While advancements in the reasoning abilities of LLMs have significantly enhanced their performance in solving mathematical problems, coding tasks, and general puzzles, their effectiveness in accurately adhering to instructions remains inconsistent, particularly with more complex directives. Our investigation identifies lazy reasoning during the thinking stage as the primary factor contributing to poor instruction adherence. To mitigate this issue, we propose a comprehensive framework designed t...

ID: 2508.03178v1 cs.CL, cs.AI, cs.LG

arXiv PDF

Показано 351 - 360 из 370 записей