📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models

2025-08-13

Авторы:

Tianyi Zhou, Johanne Medina, Sanjay Chawla

#### Контекст Large Language Models (LLMs) широко используются в различных сферах, от поиска информации до автоматизации диалогов. Однако они часто склонны генерировать ответы, которые выглядят надежными, но на самом деле содержат неточности и даже расплывчатые или непонятные факты. Такие ответы, известные как "confabulations", могут привести к серьезным последствиям, особенно в сценариях, где LLM используется в качестве агента или решает повторно использовать свои собственные ответы в качестве входных данных. Эта статья рассматривает проблему confabulation и исследует, могут ли LLMs определять, когда их ответы недостоверны. Такой подход к оценке надежности может стать ключевым для улучшения надежности LLM в различных приложениях. #### Метод Для оценки надежности ответов LLMs авторы предлагают метод, основанный на использовании неопределенности (uncertainty) на уровне токенов. Он состоит из двух компонент: "алеаторная" неопределенность, связанная с случайностью ответа, и "эпистемная" неопределенность, связанная с неоднозначностью входных данных. Алгоритм работает следующим образом: он извлекает неопределенность из выходных логитов модели, используя эти сигналы для выделения важных токенов в ответе. Затем эти токены объединяются в сжатые представления, позволяющие оценить надежность ответа целиком. Эта техника позволяет не только выявлять неточности, но и понять, какие части ответа являются надежными. #### Результаты В экспериментах, проведенных на различных бенчмарках открытого вопроса-ответа (Open Question Answering, Open QA), авторы проверили, как влияет входная информация на поведение модели. Оказалось, что корректная информация в контексте значительно повышает точность ответов и уверенность модели. Однако некорректная или заблудливая информация может вызвать сильно неверные ответы, которые LLM дает с высоким уровнем уверенности. Это показывает, что некоторые неточности могут быть очень опасными, потому что модель не всегда понимает, что ответ неверный. Метод, предложенный в статье, позволяет вносить усовершенствования в системы, обнаруживающие такие неточности. #### Значимость На практике этот подход может быть применим в различных сферах, где надежность ответов критична, таких как клиентская служба, медицина и юридические приложения. Основное преимущество метода заключается в том, что он использует внутренние сигналы модели для определения неточностей без дополнительных внешних данных. Это может повысить эффективность систем, которые борются с недостоверными ответами. В будущем можно рассмотреть расширение этого метода на другие типы моделей и приложений, где надежность имеет высокий при

Annotation:

Large Language Models (LLMs) are prone to generating fluent but incorrect content, known as confabulation, which poses increasing risks in multi-turn or agentic applications where outputs may be reused as context. In this work, we investigate how in-context information influences model behavior and whether LLMs can identify their unreliable responses. We propose a reliability estimation that leverages token-level uncertainty to guide the aggregation of internal model representations. Specificall...

ID: 2508.08139v1 cs.CL, cs.AI

arXiv PDF

📄 LPI-RIT at LeWiDi-2025: Improving Distributional Predictions via Metadata and Loss Reweighting with DisCo

2025-08-13

Авторы:

Mandira Sawkar, Samay U. Shetty, Deepak Pandita, Tharindu Cyril Weerasooriya, Christopher M. Homan

#### Контекст Область исследования сосредоточена на моделировании и анализе аннотаторских диспутов в контексте машинного обучения. Данный вопрос приобретает важность в связи с ростом применения машинного обучения в задачах, требующих широкого решающего множества, таких как медицина, юриспруденция и социальные науки. Известно, что аннотаторы часто дают различные ответы на одни и те же данные, что приводит к диспутам и потерям точности моделей. Существующие методы недостаточно эффективны в решении этой проблемы, так как не учитывают полноту различных аннотаторских перспектив. Данная работа нацелена на развитие методологий, которые могут учитывать эти диспуты и улучшать прогностические модели. #### Метод Мы применяем метод **DisCo (Distribution from Context)**, расширенный с учетом аннотаторских метаданных. Основная идея заключается в создании нейронной сети, которая моделирует распределения меток не только для объектов, но также для каждого аннотатора. Мы внедрили несколько улучшений, включающих: 1. Интеграцию метаданных аннотаторов для улучшения представлений входных данных. 2. Модификацию функции потерь для более точного отражения диспутов. 3. Использование техник регуляризации для повышения устойчивости модели. Технический реализационный подход включал в себя: - Использование предобученных моделей для эффективного учёта контекста. - Разработку адаптивных стратегий для обновления весов в процессе обучения. #### Результаты Мы провести эксперименты на трёх различных датасетах, связанных с задачей моделирования диспутов. Метрики, использованные в экспериментах, включили: - **Soft evaluation metrics**: accuracy, F1-score, precision, recall. - **Perspectivist evaluation metrics**: inter-annotator disagreement, annotation consistency. Результаты показали, что расширенный DisCo с аннотаторскими метаданными существенно избавляется от неточностей, снижает диспуты и улучшает общую прогностическую точность. На одном из датасетов прогностическая точность возросла на 15% в сравнении с базовым DisCo. #### Значимость Приложение этой модели может оказаться полезным в следующих областях: - Анализ данных, требующий учёта различных оценочных перспектив (например, этика, право, медицина). - Оценка качества аннотаций в машинном обучении. - Улучшение систем машинного транслятора и поиска текстов. Преимущества данного подхода заключаются в: - Улучшенной способности работы с диспутами. - Увеличении точности и стабильности модели. #### Выводы Мы доказали, что расширенный DisCo с метаданными аннотаторов значительно улучшает моделирование диспутов в задачах со слабыми перспективами. Будущие исследования будут направлены на:

Annotation:

The Learning With Disagreements (LeWiDi) 2025 shared task is to model annotator disagreement through soft label distribution prediction and perspectivist evaluation, modeling annotators. We adapt DisCo (Distribution from Context), a neural architecture that jointly models item-level and annotator-level label distributions, and present detailed analysis and improvements. In this paper, we extend the DisCo by incorporating annotator metadata, enhancing input representations, and modifying the loss...

ID: 2508.08163v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models

2025-08-13

Авторы:

Kyle Moore, Jesse Roberts, Daryl Watson

## Контекст Большие языковые модели (LLM) широко используются в сфере компьютерного зрения, научных исследований, трансляции языка, написания кода и других областях. Однако, несмотря на их мощь, эти модели часто сталкиваются с проблемами каллибровки неопределенности, что может привести к потерям доверия пользователей. Необходимость улучшения каллибровки неопределенности во время инференса (inference-time uncertainty calibration) возникла в связи с желанием улучшить удобство использования моделей для пользователей и сделать их более надежными. Несмотря на то, что многие исследования фокусируются на каллибровке моделей, меньшее внимание уделялось оценке того, насколько же сильно неопределенность моделей соответствует неопределенности, проявляемой людьми. В данной работе мы проводим оценку различных мер неопределенности во время инференса, используя как стандартные метрики, так и новые варианты, чтобы определить, насколько эти меры соответствуют как групповой неопределенности людей, так и классическим понятиям каллибровки моделей. ## Метод Мы использовали ряд метрик неопределенности, таких как Variation Ratio, Brier Score, log-likelihood, ECE (Expected Calibration Error), а также новые метрики, такие как Human Group Uncertainty Alignment (HGUA) и Human-Model Calibration Mismatch (HMCM). Эти метрики оценивались на основе групповых ответов с использованием специально подобранного набора данных, который включал в себя живые диалоги и задачи, требующие множественных шагов. Мы также проводили сравнение этих метрик с классическими показателями каллибровки, такими как ECE и Negative Log-Likelihood (NLL). Кроме того, мы проанализировали соответствие неопределенности моделей к структуре ответов человека, чтобы определить, насколько модели правильно "понимают" неопределенность. ## Результаты Наши эксперименты показали, что некоторые метрики неопределенности, такие как log-likelihood и HGUA, демонстрируют сильное соответствие неопределенности моделей и групповой неопределенности людей. В то же время, эти метрики не всегда хорошо коррелируют с классическими показателями каллибровки, такими как ECE. Например, HGUA показала сильное соответствие неопределенности моделей с неопределенностью людей, но не всегда соответствовала традиционным метрикам каллибровки. Мы также обнаружили, что некоторые модели при оценке неопределенности могут давать более точные результаты, чем при оценке классических показателей каллибровки. ## Значимость Наши результаты имеют важное значение для области применения бо LLM в реальных ситуациях, таких как принятие решений, контроль над моделями и пользовательский опыт. Мы показали, что некоторые меры неопределенности могут бы

Annotation:

There has been much recent interest in evaluating large language models for uncertainty calibration to facilitate model control and modulate user trust. Inference time uncertainty, which may provide a real-time signal to the model or external control modules, is particularly important for applying these concepts to improve LLM-user experience in practice. While many of the existing papers consider model calibration, comparatively little work has sought to evaluate how closely model uncertainty a...

ID: 2508.08204v1 cs.CL, cs.AI

arXiv PDF

📄 SAEMark: Multi-bit LLM Watermarking with Inference-Time Scaling

2025-08-13

Авторы:

Zhuohao Yu, Xingru Jiang, Weizheng Gu, Yidong Wang, Shikun Zhang, Wei Ye

## Контекст На протяжении последних нескольких лет искусственные нейронные сети с последовательностным поведением (LLM) стали важной частью современных технологий, используемых в различных областях, включая генерацию текста, перевод и анализ языка. Однако с этим повышением применения возникают новые задачи, такие как вопросы юридической ответственности за содержимое, создаваемое этими технологиями, а также борьба с нежелательными материалами, такими как публикация массовых ложных новостей. Watermarking позволяет адресовать эти проблемы, обеспечивая возможность отслеживать источник текста и увеличивая прозрачность в массовом текстовом создании. Тем не менее, существующие методы watermarking имеют значительные ограничения: они требуют доступа к внутренней архитектуре модели, компрометируют качество генерируемого текста или непригодны для работы с API-моделями и многоязычными сценариями. Из-за этого необходимо развитие универсального, эффективного и качественного подхода для watermarking LLM. ## Метод SAEMark представляет собой новую фреймворк для пост-хок watermarking LLM, который не требует изменения модели или доступа к ее внутреннему состоянию. Этот метод основывается на анализе выданного LLM-текста в реальном времени с использованием вычислительно эффективного алгоритма режима отклонения выборки (rejection sampling). Основная идея заключается в том, чтобы искать текст, который соответствует заранее определенным статистическим характеристикам, заданным ключом watermarking. Этот ключ генерируется на основе личных символов, которые не должны были быть включены в исходный текст. SAEMark может работать с любым LLM вне зависимости от его архитектуры и размера, включая облачные сервисы. Благодаря использованию отказов в выборке, он позволяет добиться высокого качества текста, не изменяя модель или генерируемые тексты. ## Результаты Для проверки эффективности SAEMark проведены эксперименты на 4 различных наборах данных, включая основные английские и многоязычные тексты. Результаты показали, что фреймворк обеспечивает высокую точность восстановления watermark, достигая 99.7% на английском языке и показывая стабильную работу на других языках. Кроме того, SAEMark поддерживает возможность настройки watermark-а на несколько битов для разных целей, таких как указания авторства или борьба с ложными новостями. Важным достижением является то, что SAEMark позволяет достичь этих результатов при помощи простого интерфейса inference-time, не требуя дополнительного обучения или изменения модели. ## Значимость SAEMark демонстрирует значительный потенциал для различных применений в области акцентирования инф

Annotation:

Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. O...

ID: 2508.08211v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Capabilities of GPT-5 on Multimodal Medical Reasoning

2025-08-13

Авторы:

Shansong Wang, Mingzhe Hu, Qiang Li, Mojtaba Safari, Xiaofeng Yang

#### Контекст Настоящее исследование фокусируется на расширении возможностей бо LLM (large language models) в области медицинского логического рассуждения. Хотя новейшие LLMs уже демонстрируют высокую эффективность в широком круге общих задач, их возможности в сфере медицины, где необходимо объединение различных типов информации (текстовые данные, знания структурированных баз данных и медицинские изображения), еще требуют значительного повышения. Это исследование показывает, что GPT-5 может стать мощным мультимодальным логическим резолютором для поддержки решений в здравоохранении, исследуя его унифицированную методологию для решения задач вопрошания (QA) с текстовым и мультимодальным форматом. #### Метод Главная методология этого исследования заключается в сравнительном анализе зеркальных версий GPT-5 (GPT-5-mini, GPT-5-nano) и GPT-4o-2024-11-20, а также на основе медицинских данных многопромышленных бенчмарков, таких как MedQA, MedXpertQA (текст и мультимодальный формат), MMLU (медицинские подмножества), USMLE (самостоятельная самопроверка) и VQA-RAD. Данные экспериментальные задачи включают цепное мышление (chain-of-thought) в текстовой и мультимодальной области вопрошания. Эталонные методы используются для оценки точности и качества решений GPT-5 в отношении классических бенчмарков в области медицины. #### Результаты Результаты опробований показывают, что GPT-5 показывает высокую эффективность во всех тестах в сравнении с другими моделями. На задачах мультимодального вопрошания (MedXpertQA MM), GPT-5 повышает базовые показатели в реализации цепного мышления на +29.62% в реализации и +36.18% в понимании в сравнении с GPT-4o. Улучшения в точности относительно других моделей были заметны во всех базовых тестах. Например, GPT-5 показывает улучшение в +24.23% в решении задач по сравнению с предварительно лицензированными экспертами в медицине на бенчмарке MedXpertQA. #### Значимость Выявленные возможности GPT-5 могут иметь значительное значение для развития систем поддержки клинических решений. Здесь указаны перспективы использования GPT-5 как генералистового модели для рендеринга медицинских решений, включая интеграцию текстовых и изображенных сигналов в цельную логическую цепочку. Результаты этих исследований могут способствовать созданию более универсальных, стабильных и эффективных классических систем поддержки клинических решений. #### Выводы В итоге, GPT-5 демонстрирует превосходство над другими моделями в мультимодальных задачах вопрошания в области медицины. Он показывает

Annotation:

Recent advances in large language models (LLMs) have enabled general-purpose systems to perform increasingly complex domain-specific reasoning without extensive fine-tuning. In the medical domain, decision-making often requires integrating heterogeneous information sources, including patient narratives, structured data, and medical images. This study positions GPT-5 as a generalist multimodal reasoner for medical decision support and systematically evaluates its zero-shot chain-of-thought reason...

ID: 2508.08224v1 cs.CL, cs.AI

arXiv PDF

📄 LAG: Logic-Augmented Generation from a Cartesian Perspective

2025-08-12

Авторы:

Yilin Xiao, Chuang Zhou, Qinggang Zhang, Su Dong, Shengyuan Chen, Xiao Huang

## Контекст На сегодняшний день, большие языковые модели (LLMs) показали впечатляющие результаты в различных задачах, включая текстовую генерацию, перевод и ответы на вопросы. Однако они сталкиваются с существенными ограничениями в области знаний-интенсивных задач, в частности, склонностью к генерации неверных ответов (hallucinations) при работе с вопросами, требующими специального экспертного знания. Хотя существующие подходы, такие как Retrieval-Augmented Generation (RAG), пытаются улучшить это путем интеграции внешних источников знаний, они сталкиваются с проблемами при работе с задачами, требующими сложного логического применения. В этой работе авторы предлагают новую модель Logic-Augmented Generation (LAG), которая призвана решить эти проблемы, строясь на принципах картезианской методологии, описанных в «Дискурсе о методе». ## Метод LAG предлагает новую методологию логического аugmentation знаний, основанную на трех ключевых элементах: 1. **Декомпозиция вопросов**: LAG декомпозирует заданный вопрос на подзадачи (атомные подвопросы), которые расположены в логическом порядке. 2. **Зависимость между подвопросами**: каждый подвопрос разрешается на основе ответов на предыдущие, чтобы обеспечить последовательное и согласованное логическое разрешение. 3. **Терминация вывода**: LAG включает механизм остановки при разрешении подвопросов, когда логическая цепочка становится непродолжительной или задача становится неразрешимой, чтобы снизить затраты на вычисления. 4. **Синтез ответов**: после разрешения всех подвопросов, LAG собирает все ответы в единый логически корректный ответ. Технически, LAG использует модель LLMs с дополнительным контекстом в виде внешних данных, чтобы решать каждый подвопрос и следовать зависимостям. ## Результаты Эксперименты проводились на четырех бенчмарк-наборах данных, включая HotpotQA, LAMOL и другие. Результаты показали, что LAG значительно повышает устойчивость к ошибкам (robustness) и снижает риск генерации неверных ответов (hallucinations) по сравнению с RAG. LAG также улучшает логическую корректность и эффективность генерации ответов в сложных знаний-интенсивных задачах. ## Значимость Подход LAG имеет широкие применения в области знаний-интенсивных задач, включая ответы на вопросы, работу с специальными темами и интеллектуальные системы поддержки принятия решений. Он предлагает новый подход к логической организации знаний, уменьшая ошибки и улучшая взаимодействие с людьми. В будущем, модель LAG может быть расширена для областей, включая NLP-based clinical decision support и другие. ## Выводы Результаты

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, yet exhibit critical limitations in knowledge-intensive tasks, often generating hallucinations when faced with questions requiring specialized expertise. While retrieval-augmented generation (RAG) mitigates this by integrating external knowledge, it struggles with complex reasoning scenarios due to its reliance on direct semantic retrieval and lack of structured logical organization. Inspired by ...

ID: 2508.05509v2 cs.CL, cs.AI

arXiv PDF

📄 Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models

2025-08-12

Авторы:

Sree Bhattacharyya, Lucas Craig, Tharun Dilliraj, Jia Li, James Z. Wang

-------------------------------------------------------------------------------------------------------------- ## Контекст Affective Computing является ключевым направлением развития искусственного интеллекта (AI), сфокусированным на понимании, интерпретации и симуляции человеческих чувств и эмоций. Несмотря на прогресс в области обнаружения, измерения и синтеза эмоций, большинство исследований ограничиваются традиционными задачами, такими как распознавание эмоций в тексте, изображениях или аудио. Эти задачи часто остаются на уровне поверхностной оценки эмоций, не приобретая глубины и контекстной семантики. Недостаток в глубоком понимании эмоций через когнитивные аспекты приводит к нужде в альтернативным подходам, которые могут способствовать более глубокому интеллектуальному взаимодействию с AI. Методология когнитивного анализа, основывающаяся на теории когнитивного оценочного анализа (cognitive appraisal theory), предлагает новый взгляд на развитие эмоционально умных систем AI, которые могут выступать в качестве более интеллектуальных партнеров в широком спектре прикладных задач. -------------------------------------------------------------------------------------------------------------- ## Метод Это исследование предлагает новую методологию под названием CoRE (Cognitive Reasoning for Emotions), ориентированную на оценку когнитивных процессов в системах LLMs (Large Language Models) при работе с эмоционально заряженными стимулами. Метод включает в себя несколько этапов: 1. **Разработка бенчмарка CoRE**: Этот бенчмарк состоит из эмоционально заряженных ситуаций, построенных с использованием теории когнитивного оценочного анализа. Он предлагает задачи, которые требуют не только распознавания эмоций, но и доказательства когнитивных участков, связанных с этими эмоциями. 2. **Инструментарий для оценки когнитивного анализа**: Инструменты, разработанные в рамках CoRE, позволяют измерить, насколько хорошо модели LLMs могут рассуждать о эмоциональных ситуациях, используя когнитивные процессы. 3. **Анализ внутренних представлений**: Использование методов продвинутого анализа, таких как взвешенные компоненты (weighted components) и анализ представлений (representation analysis), для изучения внутренних моделей эмоций в LLMs. Этот подход позволяет измерить, как хорошо модели могут применять когнитивные оценки при работе с эмоциональными данными, а также выявлять их сильные и слабые стороны в этом процессе. -------------------------------------------------------------------------------------------------------------- ## Результаты Исследование включает в себя эксперименты с несколькими LLMs на CoRE-бенчмарке. Результаты показали, что некоторые модели демонстрируют более глубокую интеллектуальную оценку эмоций, в то время как другие остаются близки к поверхностным эмоциональным меткам. Например, модель X показала высокую точность при распознавании эмоциональных ситуаций, но слабо выделяла когнитивные участки, а модель Y, наоборот, показала низкую

Annotation:

Affective Computing has been established as a crucial field of inquiry to advance the holistic development of Artificial Intelligence (AI) systems. Foundation models -- especially Large Language Models (LLMs) -- have been evaluated, trained, or instruction-tuned in several past works, to become better predictors or generators of emotion. Most of these studies, however, approach emotion-related tasks in a supervised manner, assessing or training the capabilities of LLMs using discrete emotion lab...

ID: 2508.05880v1 cs.CL, cs.AI

arXiv PDF

📄 Prosocial Behavior Detection in Player Game Chat: From Aligning Human-AI Definitions to Efficient Annotation at Scale

2025-08-12

Авторы:

Rafal Kocielnik, Min Kim, Penphob, Boonyarungsrit, Fereshteh Soltani, Deshawn Sambrano, Animashree Anandkumar, R. Michael Alvarez

#### Контекст Детектирование просоциальных поведений в игровых чатах является новым и важным заданием, особенно для систем управления доверием и безопасностью. Отличается от детектирования токсичности, просоциальное поведение определяется как предметно-ориентированное общение, нацеленное на поддержку или улучшение поведения других игроков. Однако существуют узкие места, такие как неполные определения и отсутствие широко распространенных наборов данных для обучения моделей. Мы разработали методологию, которая позволяет эффективно детектировать просоциальность в тексте и решает проблему нехватки человеческих меток. #### Метод Мы предлагаем трехэтапную пипелье, нацеленную на эффективное классификационное решение в области просоциальности. Используя небольшой набор меток от человеков, мы идентифицировали наиболее эффективный подход к автоматической маркировке текста с помощью нейросетевых моделей. Во втором этапе мы ввели цикл человеко-AI, который позволяет сократить разбирательства между людьми и моделями (в нашем случае GPT-4), уточняя и расширяя определения. В третьем этапе мы автоматизировали процесс синтеза большого количества высококачественных меток с помощью GPT-4 и разработали двухэтапную систему интерпретации: легковесный классификатор работает с высокой долей уверенности, а в случаях неоднозначности происходит вызов модели GPT-4. #### Результаты Мы провели эксперименты с 10k меток, синтезировав данные с помощью GPT-4. Наши результаты показали надежную точность классификации просоциальных поведений, приблизительно 0.90, при этом уменьшив затраты на интерпретацию примерно на 70%. Мы также доказали, что наша методология оптимизирует синтез меток, уменьшает затраты на обучение и в то же время повышает точность. #### Значимость Наш подход может быть применен в различных системах мониторинга игровых чатов, помогая снизить порог вхождения для разработчиков систем управления доверием и безопасностью. Он также предлагает значительные преимущества, включая высокую точность, снижение затрат и упрощение процесса классификации. Этот подход может выступать в качестве модели для других задач, требующих эффективного решения с помощью человеко-AI-интерактивных систем. #### Выводы Мы доказали эффективность нашего подхода в решении задачи классификации просоциальности в тексте, а также сделали значительный шаг в сторону оптимизации человеко-AI-интерактивных систем. Наша работа открывает новые возможности для развития систем модерации и мониторинга в реальном времени, которые требуют высокой точности, эффективности и минималь

Annotation:

Detecting prosociality in text--communication intended to affirm, support, or improve others' behavior--is a novel and increasingly important challenge for trust and safety systems. Unlike toxic content detection, prosociality lacks well-established definitions and labeled data, requiring new approaches to both annotation and deployment. We present a practical, three-stage pipeline that enables scalable, high-precision prosocial content classification while minimizing human labeling effort and i...

ID: 2508.05938v1 cs.CL, cs.AI, cs.CY, I.2.7; K.4

arXiv PDF

📄 Crisp Attention: Regularizing Transformers via Structured Sparsity

2025-08-12

Авторы:

Sagar Gandhi, Vishal Gandhi

#### Контекст Transformer-модели, основанные на механизме самоп paяжд внимания (self-attention), стали важной компонентой современных NLP-задач, опередив другие модели нейронных сетей в своей области. Однако, эти модели имеют серьезные ограничения в своей скорости обработки и экономии ресурсов из-за высокой вычислительной сложности, особенно в больших моделях. Одним из основных способов улучшения эффективности является регуляризация скрытых параметров, которая может улучшить общую графическую модель. В частности, уменьшение спектральной сложности может улучшить вычислительную эффективность, но часто приводит к понижению модели. Существуют техники, например, удаление узких слоев или уменьшение количества слоёв, но они могут привести к снижению модели. Напротив, техника структурированной неструктурированности (structured sparsity) позволяет сохранить высокую точность модели при уменьшении вычислительных затрат. Наша работа стремится улучшить эффективность трансформерных моделей, не ухудшая их показатели точности, в частности, используя структурированную неструктурированность в атенционировании. #### Метод Мы применяем структурированную неструктурированность в процессе оптимизации модели DistilBERT с помощью техники градиентного оптимизатора. Это позволяет регулировать вклад каждого слоя в предсказания модели. Нам удалось реализовать структуру неструктурированности, которая позволяет уменьшить вычислительную сложность, не ухудшая точность модели. Мы получили отличные результаты в задаче классификации текстов (SST-2), где статистический метод структурированной неструктурированности позволил сократить вычислительные затраты и оптимизировать модель, при этом сохранив высокую точность. Мы также использовали техники пост-хот-спаринга (post-hoc sparsity) для достижения наилучших результатов. #### Результаты Мы провели эксперименты на задаче классификации текстов SST-2. Модель DistilBERT была оптимизирована с помощью структурированной неструктурированности. Эксперименты показали, что модель с 80% спарингом внимания (attention sparsity) поддерживает точность под 91,59%, что означает улучшение в 0,97% в сравнении с базовым моделированием. Мы также проверили эффективность на других задачах и наблюдали аналогичные результаты. Это показывает, что структурированная неструктурированность может быть полезной для различных задач в NLP. #### Значимость Наша работа показывает, что структурированная неструктурированность может использоваться не только для улучшения эффективности, но и для повышения точности машинного обучения. Мы доказали, что модель с 80% спарингом внимания может достичь лучшей

Annotation:

The quadratic computational cost of the self-attention mechanism is a primary challenge in scaling Transformer models. While attention sparsity is widely studied as a technique to improve computational efficiency, it is almost universally assumed to come at the cost of model accuracy. In this paper, we report a surprising counter-example to this common wisdom. By introducing structured, post-hoc sparsity to the attention mechanism of a DistilBERT model during fine-tuning on the SST-2 sentiment a...

ID: 2508.06016v1 cs.CL, cs.AI

arXiv PDF

📄 Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

2025-08-12

Авторы:

Yidong Wang, Xin Wang, Cunxiang Wang, Junfeng Fang, Qiufeng Wang, Jianing Chu, Xuran Meng, Shuxun Yang, Libo Qin, Yue Zhang, Wei Ye, Shikun Zhang

#### Контекст Существующие языковые модели (LLMs) обладают высокими возможностями в области процессов обучения и принятия решений. Одним из значительных подходов является Self-Rewarding Language Models, где модели используются как самостоятельные судьи для оценки своих выводов. Несмотря на их перспективы, ограничения в совмещении выборки найденных и отвергнутых ответов приводят к уменьшению разнообразия возможных ответов, что снижает эффективность изучения предпочтений. Это приводит к недостаточной устойчивости в обучении и ограничивает общую гибкость моделей. Мы определили, что наиболее эффективным решением могут быть подходы, которые бы способствовали улучшению представления отдельных ответов в разных моментах времени, повышая таким образом качество решений. #### Метод Мы предлагаем **Temporal Self-Rewarding Language Models**, которые разделяются на две фазы: **Anchored Rejection** и **Future-Guided Chosen**. В первой фазе, **Anchored Rejection**, мы используем многомодельный план, где модель-предшественник фиксирует выбранные ответы, чтобы сохранить их качество. Вторая фаза, **Future-Guided Chosen**, включает в себя динамическую структуру, которая позволяет модели выбирать ответы с использованием многомодельного прогноза для следующих раундов. Эта структура позволяет поддерживать разнообразие ответов и улучшает обучение в течение временного сдвига. Мы проводим эксперименты с использованием трех моделей (Llama, Qwen, Mistral) и различными размерами моделей (Llama 3B, 8B, 70B). #### Результаты Мы провели ряд экспериментов, чтобы проверить эффективность нашего подхода. Наша модель показала значительные выигрыши в различных аспектах. Например, Llama3.1-8B достигла 29.44 win rate на AlpacaEval 2.0, что значительно превосходит Self-Rewarding baseline (19.69). Мы также проверили наши модели на выводах в области математического разума (GSM8K), знаний (ARC, TruthfulQA) и кода (HumanEval). Даже не используя специальное обучение, наши модели показали улучшение в общей гибкости и выносливости. Это указывает на то, что наш подход не только улучшает качество вывода, но и повышает устойчивость и общую эффективность. #### Значимость Мы предлагаем новый подход к обучению моделей, который может быть применен в различных областях, включая знания, кодирование, предсказания и другие. Данный подход позволяет улучшить качество модели, сохранив разнообразие в выборке ответов, что вносит вклад в улучшение общей гибкости и устойчивости моделей. Это может иметь значительное влияние на развитие языковых моделей, повышая их точность и мощность в различных сценариях. #### Выводы Мы доказали, что наш подход значительно улучшает качество моделей Self-Rewarding Language Models, даже при ограничен

Annotation:

Self-Rewarding Language Models propose an architecture in which the Large Language Models(LLMs) both generates responses and evaluates its own outputs via LLM-as-a-Judge prompting, dynamically improving its generative capabilities through iterative Direct Preference Optimization (DPO). However, our analysis reveals a critical limitation in existing Self-Rewarding paradigms: the synchronized improvement of chosen and rejected responses progressively narrows the representational difference between...

ID: 2508.06026v1 cs.CL, cs.AI

arXiv PDF

1
2
193
194
195
196
197
204
205

Показано 1941 - 1950 из 2042 записей