📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Punya Syon Pandey, Yongjin Yang, Jiarui Liu, Zhijing Jin

## Контекст Игрокотеоретические взаимодействия между агентами с Large Language Models (LLMs) открыли новые возможности в области искусственного интеллекта, демонстрируя развитие новых языковых способностей. Однако эти взаимодействия характеризуются богатой лингвистической разнообразием, который до сих пор недостаточно оценен. Большинство метрик, используемых для оценки языковой производительности, не учитывают индивидуальные особенности игрокотеоретических взаимодействий. Целью данного исследования является разработка метрики, которая бы позволила эффективно измерить качество монологических и диалогических высказываний в различных игрокотеоретических сценариях. ## Метод Метрика CORE (Conversational Robustness Evaluation Score) основывается на измерении трех ключевых аспектов языкового поведения: кластеризации слов, лексической повторяемости и семантической схожести. Метод включает в себя анализ динамики распределения слов в диалоге, а также использует Zipf's и Heaps' Laws для описания распределения частот слов и роста словарного запаса. Для сравнения различных игрокотеоретических сценариев (конкурентные, сотрудничественные, нейтральные), CORE использует выборку диалогов между LLMs. Это позволяет углубленно изучить как эффективность языка, так и его адаптацию в различных социальных контекстах. ## Результаты Испытания показали, что в кооперативных сценариях Zipf's и Heaps' Laws демонстрируют стрелеующие распределения, что свидетельствует о более высокой репликации лексики и богатом росте лексикографического запаса. Напротив, в конкурентных сценариях эти законы отражают более ограниченную лексическую деятельность и меньшую репликацию. Эти результаты демонстрируют, как сильные социальные интриги влияют на адаптацию языка, а также подтверждают значимость CORE в качестве диагностического инструмента для измерения языковой производительности в многоагентных системах. ## Значимость CORE может использоваться в различных областях, где важно измерить качество монологических и диалогических языковых высказываний, включая обучение ЛСМ, анализ коммуникационных систем, игровые системы и даже психологическое исследование поведения в командных задачах. Одним из ключевых преимуществ CORE является его универсальность и точность, что позволяет создавать более надежные модели и тесты для измерения языкового взаимодействия. ## Выводы Результаты исследования показали, что CORE является эффективной метрикой для измерения языкового качества в игрокотеоретических системах. Будущие исследования будут сфокусированы на расширении CORE для дру
Annotation:
Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified. In this paper, we present the Conversational Robustness Evaluation Score: CORE, a metric to quantify the effectiveness of language use within multi-agent systems across different game-theoretic interactions. CORE integrates measures of cluster entropy, lexical repetition, and semantic simila...
ID: 2508.11915v1 cs.CL, cs.AI, cs.LG
Авторы:

Yao Wu

## Контекст Одна из основных проблем в адаптации бо LLM (large language models) лежит в том, чтобы оптимизировать несколько целей, таких как улучшение фактичности (heat) и повышение уверенности (low entropy), при этом не ухудшая другие критерии. Эта задача становятся еще сложнее при учете того, что параметры промптов (например, вставки в скрытых слоях и модификации векторов) могут взаимодействовать друг с другом в нетривиальных способах. Традиционные многоцелевые оптимизационные подходы часто опираются на агрегирование градиентов по мере, чтобы выбрать наиболее приоритетную оптимизацию, не учитывая геометрический структурный смысл между целями и параметрами. В этом контексте возникает необходимость в более глубоком понимании интеракции между целями и параметрами для эффективного управления промптами в LLM. ## Метод Метод J6 (Jacobian-Driven Role Attribution) представляет собой новую модель оптимизации промптов, основанную на декомпозиции градиентного взаимодействия в шесть интерпретируемых компонент. Эти компоненты позволяют выявить взаимосвязи между целями и параметрами, анализировать их геометрическую структуру и динамически регулировать поток оптимизации. Метод включает в себя два режима действия: жесткий (hard), основанный на выборе наиболее приоритетного направления из шести возможных, и мягкий (soft), основанный на атансовском взвешивании вариантов. Это дает гибкость для адаптации к локальным конфликтам и синергиям между целями. Также J6 предоставляет интерпретируемую структуру, позволяющую расследовать вклад каждого параметра в задачу, отслеживать взаимодействия между задачами и применять геометрически управляемые методы адаптации. ## Результаты Эксперименты показали, что J6 эффективно справляется с многоцелевой оптимизацией промптов, предлагая более точный контроль за взаимодействиями между целями. Были проанализированы различные сценарии оптимизации, включая ситуации с значительными конфликтами между целями, и показано, что J6 может адаптироваться к ним, обеспечивая более сбалансированные результаты. Данные эксперименты были проведены на различных наборах данных и с различными видами задач, что демонстрирует широту применения метода. ## Значимость Метод J6 может быть применен в различных областях, где требуется многоцелевая оптимизация с разными типами задач и параметров. Он позволяет улучшить точность и уверенность результатов, а также обеспечить более глубокое понимание взаимодействий между параметрами. Этот подход открывает новую площадку для использования геометрической интерпретации в
Annotation:
In large language model (LLM) adaptation, balancing multiple optimization objectives such as improving factuality (heat) and increasing confidence (via low entropy) poses a fundamental challenge, especially when prompt parameters (e.g., hidden-layer insertions h and embedding modifications w) interact in non-trivial ways. Existing multi-objective optimization strategies often rely on scalar gradient aggregation, ignoring the deeper geometric structure between objectives and parameters. We propos...
ID: 2508.12086v1 cs.CL, cs.AI, cs.LG, 68T50, 90C29, 62F07, I.2.7; I.2.6; G.1.6
Авторы:

Haiquan Hu, Jiazhi Jiang, Shiyou Xu, Ruhan Zeng, Tian Wang

#### Контекст Ларже лангуэйдж моделс (LLMs) становятся все более значимыми в системах AI за счет их увеличивающейся способности решать комплексные задачи. Однако, существуют значительные проблемы в их оценке. Начиная с высокого компьютерного воздействия полных оценок до широкого переобучения к общим бенчмаркам, оценка LLMs становится все более сложной. Особенно сложно выявить тонкие различия в поведении моделей при использовании традиционных методов. Это приводит к необходимости развития более эффективных, точных и стоимостно эффективных методов оценки LLMs. STEM (Structured Transition Evaluation Method) предлагается как инновационный подход для эффективной оценки LLMs, сосредоточенный на точной интерпретируемой оценке их реального воздействия. #### Метод STEM основывается на анализе изменения поведения LLMs в зависимости от их размера и архитектуры. Метод идентифицирует **significant transition samples (STS)** — ключевые сценарии, где LLMs с одинаковой архитектурой показывают значительные различия в поведении. Эти STS построены на основе широкого набора бенчмарков, охватывающих различные аспекты логического и реального мира. Фреймворк STEM использует эти STS для оценки того, как новая модель сравнивается с существующими. Эта методология является интерпретируемой, стоимостно эффективной и архитектурно-агностической, чтобы обеспечить точную оценку в реальном мире. #### Результаты Проведенные эксперименты показывают, что STEM сохраняет высокую точность при оценке моделей разных размеров. Используя Qwen3-фамлию моделей, STEM строит STS-sample на базе six современных бенчмарков. Оценки STEM соответствуют значительной части значений полных экспериментов, с моделями лучших результатов. Это подтверждает мощь метода в обеспечении точной оценки LLMs. Дополнительные эксперименты показали точность STEM в отношении точки сравнения разных моделей, как в малых, так и в больших подходах. #### Значимость STEM предлагает новый способ эффективной оценки LLMs, который может быть применен в различных областях, включая робототехнику, техническое письмо и языковую моделирование. STEM не требует высоких вычислительных затрат и позволяет тонкой оценке моделей. Этот подход улучшает способность AI-систем для решения реальных задач, сокращает время и стоимость оценки моделей, а также улучшает интерпретируемость результатов. #### Выводы STEM выявляет ключевые сценарии, которые эффективно оценивают LLMs, и демонстрирует возможность точных оценок в реальном мире. Дальнейшие исследования будут сосредотачиваться на расширении STS-sample на различные типы моделей и сценариев, а также на улучшении STEM для по
Annotation:
Evaluating large language models (LLMs) has become increasingly challenging as model capabilities advance rapidly. While recent models often achieve higher scores on standard benchmarks, these improvements do not consistently reflect enhanced real-world reasoning capabilities. Moreover, widespread overfitting to public benchmarks and the high computational cost of full evaluations have made it both expensive and less effective to distinguish meaningful differences between models. To address thes...
ID: 2508.12096v1 cs.CL, cs.AI, cs.LG
Авторы:

Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas

#### Контекст Современное информационное пространство становится все более угрожающим местом для распространения массовой информации и нарушения прав человека. Одним из ключевых аспектов этой проблемы является распространение массовой информации, которая включает в себя различные методы, такие как ложная информация, глубокое фальсифицирование и дезинформация. Это может привести к дистанционной психологической войне, разрушению социальных связей и психологическому давлению на широкие слои общества. Для того чтобы сделать данные ситуации предсказуемыми и управляемыми, необходимо развитие специализированных методов, которые могут обнаруживать массовые информационные цепи и анализировать их в динамическом порядке. Исследование этой области является ключевым фактором для развития новых систем мониторинга и анализа, которые могут помочь в улучшении динамического мониторинга событий, включая распространение массовой информации. #### Метод E-CaTCH (Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling) является интерпретируемой и масштабируемой системой для обнаружения массовой информации. Её работа основывается на нескольких основных элементах. Во-первых, метод разбивает события на кластеры на основе текстового похожести и темпоральной близости. Затем, для каждого события, E-CaTCH извлекает текстовые и визуальные признаки с использованием предобученных моделей BERT и ResNet. Эти признаки обрабатываются с помощью внутримодального самоподстройного внимания, а затем соединяются двунаправленным кросс-модальным вниманием для образования контекстуализированных, контент-о acктеризированных представлений. Для моделирования прогрессии тематической повестки в динамическом порядке, E-CaTCH разделяет события на перекрывающиеся временные окна и использует улучшенную LSTM с элементами семантического сдвига и моментом для кодирования прогрессии. Метод также интегрирует адаптивную взвешивание классов, регуляризацию классами и тяжелые примеры, чтобы сдвинуть классификационную модель к более стабильной учительской системе. #### Результаты Исследования E-CaTCH проводились на датасетах Fakeddit, IND и COVID-19 MISINFOGRAPH. Результаты показали, что E-CaTCH превосходит состояние технологии по классическим метрикам, таким как F1-score, ROC-AUC и Precision-Recall. Особенно выделяется улучшенный результат в случаях неравновесия класса, где метод показал свою эффективность в обнаружении малочастотных классов. Cross-dataset evaluations также продемонстрировали высокую прогностическую стабильность и гибкость E-CaTCH в различных международных контекстах. ####
Annotation:
Detecting multimodal misinformation on social media remains challenging due to inconsistencies between modalities, changes in temporal patterns, and substantial class imbalance. Many existing methods treat posts independently and fail to capture the event-level structure that connects them across time and modality. We propose E-CaTCH, an interpretable and scalable framework for robustly detecting misinformation. If needed, E-CaTCH clusters posts into pseudo-events based on textual similarity and...
ID: 2508.11197v1 cs.CL, cs.AI, cs.LG, cs.SI
Авторы:

Ethan Gordon, Nishank Kuppa, Rigved Tummala, Sriram Anasuri

################################# ## Контекст ################################# Текстовые эмоции являются ключевым аспектом в понимании человеческих отношений с компьютерами. Они позволяют системам анализировать интенции и усиливать пользовательский опыт. Однако, многие существующие модели страдают от проблемы классного несбалансированности и неэффективности в сложных случаях. Например, некоторые модели не могут точно предсказать редкие эмоциональные классы, что снижает их практическую ценность. Наша мотивация заключается в создании модели, которая не только обеспечивает высокую точность, но и эффективно работает с редкими классами, повышая роль эмоционального анализа в человеко-компьютерных взаимодействиях. ################################# ## Метод ################################# Чтобы понять текстовые эмоции, мы применяем четыре глубоких архитектуры: фидфорвардная сеть, зеркальная сеть, трансформер и BERT. Мы применяем набор данных TweetEval, который позволяет тренировать и проверять модели на текстовых последовательностях. Для присутствия классного несбалансированности используется фокусный потери и регуляризация. Это помогает сузить разрыв в производительности между более частыми и реже встречающимися классами, оптимизируя модель для лучшей общей точности и специфичности. ################################# ## Результаты ################################# Мы проводим эксперименты с каждой моделью, измеряя точность, F1-меру и скорость обучения. Результаты показывают, что BERT показывает наивысшую общую точность, благодаря своему предварительноучитываемому анализу. Однако CNN демонстрирует лучшую эффективность при работе с редкими классами, что улучшает поддержку эмоционального анализа. Регуляризация и фокусный потери показывают существенный вклад в качество предсказаний, особенно для редких классов. Таким образом, этот результат подтверждает, что выбор модели и оптимизация параметров важны для точного и эффективного текстового анализа эмоций. ################################# ## Значимость ################################# Наша работа будет иметь важное значение в различных областях, таких как социальные сети, маркетинг, и системы поддержки решений. Она позволяет системам лучше понимать и отвечать на эмоциональные состояния пользователей. Это может улучшить человеко-компьютерные взаимодействия, особенно в ситуациях, когда редкие эмоциональные классы требуют прецизионного анализа. Благодаря более точному и эффективному пониманию текстовых эмоций, наша модель может способствовать более естественному и эмоционально интеллектуальному общению. ################################# ## Выводы ################################# Наше исследование показывает, что выбор модели и оптимизация ключевые факторы для точного понимания текстовых эмоци
Annotation:
This project explores emoji prediction from short text sequences using four deep learning architectures: a feed-forward network, CNN, transformer, and BERT. Using the TweetEval dataset, we address class imbalance through focal loss and regularization techniques. Results show BERT achieves the highest overall performance due to its pre-training advantage, while CNN demonstrates superior efficacy on rare emoji classes. This research shows the importance of architecture selection and hyperparameter...
ID: 2508.10222v1 cs.CL, cs.AI, cs.LG, cs.NE
Авторы:

Juyuan Wang, Rongchen Zhao, Wei Wei, Yufeng Wang, Mo Yu, Jie Zhou, Jin Xu, Liyan Xu

#### Контекст Научные исследования в области текстового понимания и реактивного умственного анализа (RAG) сталкиваются с значительными вызовами при анализе длинных текстовых контекстов, таких как романы и художественные произведения. Эти тексты обусловлены сложными сюжетными линиями и дополнительными связями между героями и сущностями. Существующие методы теряются при выполнении длительных и связанных задач, так как ограничены в своей способности сохранять и эффективно использовать информацию из больших контекстов. Таким образом, есть потребность в разработке новых подходов, которые могли бы эффективно поддерживать stateful reasoning в длинных текстовых контекстах. #### Метод Как показано в работе, ComoRAG представляет собой итеративный подход к сбору и обработке информации, который подражает человеческому мышлению при работе с памятью. Взаимодействие происходит в динамической среде памяти, где каждая итерация включает следующие этапы: 1) генерация поисковых запросов для выявления новых связей; 2) получение новых данных из памяти; 3) обновление глобальной памяти с учётом новых сведений. Таким образом, ComoRAG может эффективно сохранять информацию о ключевых связях в течение долгого текста и выполнить stateful reasoning, являясь первым в своём классе. #### Результаты В ходе экспериментов на 200K+ токенов были протестированы современные методы RAG, включая и новый ComoRAG. На основе данных, полученных из 4 проведённых многозначных тестов, ComoRAG демонстрировал выдающиеся результаты. В сравнении с лучшим текущим RAG-методом, ComoRAG показал увеличение точности до 11% при решении сложных задач, в которых требуется глобальное понимание текста. Эти результаты указывают на высокую эффективность ComoRAG в обработке длинных текстов с глубоким контекстом. #### Значимость Помимо оптимизации существующих RAG-моделей, ComoRAG может быть применен в различных областях, включая литературный анализ, глубокий поиск и приложения в ИИ. Его преимущества включают более точное понимание текста, более эффективную обработку длинных текстов и высокую точность в решении тестов, требующих глобального контекста. Это может привести к новым возможностям в текстовом анализе, повышению качества ИИ-систем и повышению производительности в поле текстовых приложений. #### Выводы ComoRAG представляет собой прорыв в области stateful reasoning в текстовых контекстах. Его технология, основанная на принципах человеческого ума, позволила достичь изумительных результатов в тестировании на длинных текстах. На будущее планируется расширение функций ComoRAG, у
Annotation:
Narrative comprehension on long stories and novels has been a challenging domain attributed to their intricate plotlines and entangled, often evolving relations among characters and entities. Given the LLM's diminished reasoning over extended context and high computational cost, retrieval-based approaches remain a pivotal role in practice. However, traditional RAG methods can fall short due to their stateless, single-step retrieval process, which often overlooks the dynamic nature of capturing i...
ID: 2508.10419v1 cs.CL, cs.AI, cs.LG
Авторы:

Jim Dilkes, Vahid Yazdanpanah, Sebastian Stein

#### Контекст Область исследования, связанная с применением больших языковых моделей (LLMs) в качестве агентов последовательного стратегического принятия решений, является относительно новой, но уже привлекла внимание благодаря возможности эффективного использования LLMs в таких задачах. Однако существуют значительные ограничения: LLMs часто требуют огромных ресурсов для выполнения хорошо, что делает их менее практичными в реальных сценариях. Большинство методов пост-тренировки LLMs, ориентированных на решение этой проблемы, разработаны для задач с одной итерацией и не спроектированы для решения задач с несколькими этапами, где кредитное назначение (credit assignment) для каждой стадии является ключевым. Данная работа адресует эти проблемы, предлагая новый подход для улучшения поведения LLMs в задачах последовательного принятия решений. #### Метод Методом решения является Multi-Step Group-Relative Policy Optimization (MS-GRPO), алгоритм, разработанный для последовательного улучшения поведения LLMs в задачах с несколькими этапами. Этот алгоритм основывается на формальных моделях Text-Mediated Stochastic Game (TSMG) и Language-Agent Policy (LAP), которые позволяют ему аккуратно назначать кредит за каждый шаг в последовательном решении. Наша модификация включает в себя поиск стратегии оптимальной оценки того, какой шаг в задаче с несколькими шагами вносит больший вклад в окончательный результат. Для этого мы внедрили абсолютно-преимущественную стратегию взвешивания, которая учитывает весь эпизод в качестве размера присуждаемого кредита. Эта стратегия улучшает темп обучения и позволяет лучше справляться с нетривиальными задачами. #### Результаты Мы проверили наш подход на двух задачах: Snake и Frozen Lake. Для экспериментов использовались две модели языковых моделей разных размеров: 3 миллиардов параметров и 72 миллиардов параметров. Улучшенная модель 3 миллиардов параметров, полученная с помощью MS-GRPO, показала значительное улучшение в производительности, превосходя базовую модель 72 миллиардов параметров на 50% в задаче Frozen Lake. Эти результаты показывают, что целевая пост-тренировка может быть эффективным способом улучшения поведения LLMs в задачах последовательного принятия решений, даже при малом размере модели. #### Значимость Методы, представленные в нашей работе, могут привести к значительным преимуществам в области искусственного интеллекта, особенно в тех случаях, когда необходимо использовать упрощенные модели с меньшим размером. Это может привести к экономии ресурсов и увеличению эффективности в сценариях, где требуется быстрое решение. Кроме того, наши результаты могут открыть пути для дальнейших исследований в области по
Annotation:
Large Language Models (LLMs) show potential as sequential decision-making agents, but their application is often limited due to a reliance on large, computationally expensive models. This creates a need to improve smaller models, yet existing post-training methods are designed for single-turn interactions and cannot handle credit assignment in multi-step agentic tasks. To address this, we introduce Multi-Step Group-Relative Policy Optimization (MS-GRPO), a new algorithm for post-training LLM age...
ID: 2508.10839v1 cs.CL, cs.AI, cs.LG, I.2.7; I.2.8
Авторы:

Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen

#### Контекст Diffusion Language Models (DLMs) представляют собой развивающуюся область исследований в области естественного языка, которая становится все более важной в свете нехватки широкого использования моделей с авторегрессионным (AR) подходом. Изначально, AR-модели широко применялись в NLP-задачах, но они имеют ограничения, такие как высокая задержка при работе в реальном времени и неэффективность при обработке больших контекстов. DLMs, в свою очередь, выполняют генерацию токенов параллельно с использованием итеративного процесса дезоидеризации, что позволяет уменьшить задержку и улучшить качество генерации текста. Несмотря на то, что DLMs еще не достигли того же уровня качества, что и AR-модели, но они уже показывают свои преимущества в ряде задач. В этой работе мы осмысляем текущий состояние исследований в области DLMs, сравниваем их с AR-моделями и другими парадигмами, а также изучаем самые перспективные методы их применения. #### Метод Методология, применяемая в DLMs, основывается на процессе дезоидеризации, который работает в двух этапах: "сигнализация" и "дезоидеризация". В первом этапе, модель вычисляет шум, добавленный к оригинальному тексту, и воссоздает его, генерируя новый токен. Этот процесс повторяется, пока не достигнем исходного токена. Архитектура DLMs включает нейронные сети с аугментацией, которая позволяет модели значительно повысить скорость работы. Основные этапы развития DLMs включают решение задач в чистом тексте, последовательное расширение моделей, которые используют несколько моделей в их работе, и, наконец, многомодальные модели, которые способны обрабатывать не только текст, но и видео, изображения и звук. Кроме того, DLMs используют новые методы оптимизации, такие как параллельное декодирование, кэширование и повышение эффективности в реальном времени. #### Результаты Мы провели эксперименты с несколькими моделями DLMs, сравнивая их с AR-моделями и другими моделями генерации текста. Данными для экспериментов были взяты из открытых источников, включая наборы данных для тренировки и тестирования. Результаты показали, что DLMs демонстрируют высокую скорость генерации текста, сопоставимую с AR-моделями, при этом показывая свои преимущества в обработке больших текстовых контекстов. Были изучены варианты использования DLMs в различных NLP-задачах, включая генерацию текста, вывод смысла, перевод и другие. Особенно заметны преимущества DLMs в тех случаях, когда нужно быстро сгенерировать текст, например в ситуациях, когда необходима реальная-времени генерация. #### Значимость DLMs могут быть применены во многих областях,
Annotation:
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and promising alternative to the dominant autoregressive (AR) paradigm. By generating tokens in parallel through an iterative denoising process, DLMs possess inherent advantages in reducing inference latency and capturing bidirectional context, thereby enabling fine-grained control over the generation process. While achieving a several-fold speed-up, recent advancements have allowed DLMs to show performance comparable to their a...
ID: 2508.10875v1 cs.CL, cs.AI, cs.LG
Авторы:

Igor Halperin

## Контекст Large Language Models (LLMs) становятся все более популярными в силу их возможности генерировать текст на основе качественных запросов. Однако одной из серьезных проблем является халлуцинация, т.е. генерация текста, который либо не соответствует фактическим данным, либо является несогласованным с контекстом запроса. Такие недостатки могут привести к ошибкам, когда модель производит неточные или недостоверные ответы, отвлекаясь от поставленных вопросов. Это может привести к значительным проблемам в различных областях, где нужен аккуратный и точный текст. Наша исследовательская цель — разработать систему, которая может диагностировать халлуцинации и определить наличие несогласованности в ответах модели. ## Метод Мы предлагаем Semantic Divergence Metrics (SDM), новую метрику для оценки согласованности ответов модели с запросом. Метод основывается на joint clustering с использованием различных тематических моделей, таких как Sentence-BERT. Мы используем этот подход для создания общей тематической модели для обработки запросов и ответов модели. Для оценки согласованности используются несколько информационно-теоретических метрик, таких как Jensen-Shannon Divergence и Wasserstein Distance, которые позволяют измерить расстояние между запросом и ответом. Мы также предлагаем Semantic Box, диагностическую систему для классификации типов ответов, включая рискованные и недостоверные ответы. ## Результаты Мы проверили наш метод на различных тестовых наборах данных, включая общие текстовые запросы и специализированные задачи. Наши результаты показали, что Semantic Divergence Metrics дают более точные оценки семантической разницы в ответах в сравнении с существующими методами. Мы также установили, что Semantic Box позволяет обнаруживать рисковые ситуации, когда модель использует неточные слова или фразы, что может привести к серьезным ошибкам. ## Значимость Наша работа открывает новые возможности для преодоления проблем халлуцинаций в LLMs. Мы предлагаем метод, который может быть использован в различных сферах, включая здравоохранение, финансы и юриспруденцию, где точность и достоверность ответов критично важны. Мы также показали, что наш метод может помочь разработчикам LLM улучшить модели, оправдав надежный и удобный инструмент для оценки и улучшения целостности и достоверности ответов. ## Выводы Мы представили Semantic Divergence Metrics, новую метрику для диагностики семантической разницы в ответах моделей LLM. Наша работа показала, что наш подход может быть использован для точного определения халлуцинаций в ответах, что позволяет улучшить достоверность и согласованность моделей. Мы также демонстрируем, как наша система может быть
Annotation:
The proliferation of Large Language Models (LLMs) is challenged by hallucinations, critical failure modes where models generate non-factual, nonsensical or unfaithful text. This paper introduces Semantic Divergence Metrics (SDM), a novel lightweight framework for detecting Faithfulness Hallucinations -- events of severe deviations of LLMs responses from input contexts. We focus on a specific implementation of these LLM errors, {confabulations, defined as responses that are arbitrary and semantic...
ID: 2508.10192v1 cs.CL, cs.AI, cs.LG, q-fin.CP
Авторы:

Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein

## Контекст Large Language Models (LLMs) становятся все более популярными в различных областях применения, таких как поиск, генерация текста и диалоговые системы. Однако эти модели часто содержат нежелательные биазы и стереотипы, которые могут привести к нежелательным последствиям, таким как распространение предрассудков и дискриминации. Изучение и устранение этих биаз в весах LLMs крайне важно для развития эффективных стратегий минимизации их влияния. Несмотря на то, что существуют методы для эликвидации биаз в LLMs, они либо требуют дорогостоящих и сложных экспериментов, либо оказываются неэффективными для работы с непредсказуемыми или новыми формами биаз. Было предложено BiasGym — многоцелевой инструмент, который позволяет удобно инжектировать и изучать биазы в LLMs, а также использовать полученные сигналы для их устранения. ## Метод BiasGym представляет собой два основных компонента: BiasInject и BiasScope. **BiasInject** предназначен для точечного внедрения биаз в модель, используя токен-базуную тюнинг. Здесь модель остается замороженной, чтобы избежать полного переучивания. **BiasScope** использует созданные сигналы для того, чтобы идентифицировать и управлять слоями модели, ответственными за выражение биаз. Это позволяет создавать систематические эксперименты для изучения и устранения биаз в текстах, в то же время уменьшая затраты на экспериментирование. Метод BiasGym может применяться для разных типов биаз, в том числе и тех, которые не были видны во время токен-базной тюнинг. ## Результаты Исследования проводились на нескольких типах биаз, включая реальные тенденции (например, клише про драйверы из Италии) и фантастические (например, люди из фикциональной страны с голубым кожным цветом). BiasGym позволил не только идентифицировать эти биазы, но и устранить их, сохранив преемственность в плане качества решения задач. Эксперименты проводились на различных моделях, включая те, что являются открытым исходным кодом, и показали, что BiasGym обеспечивает значительную уменьшение биазных тенденций без существенного ухудшения производительности модели на реальных задачах. ## Значимость BiasGym представляет собой универсальный инструмент, который может быть использован для разных целей, включая стратегии минимизации предрассудков в моделях, проверку интерпретируемости текстов, и даже для экспериментов с фантастическими сценариями. Он позволяет снизить нежелательные последствия биаз в LLMs, улучшая их безопасность и этичность. Также, подход BiasGym может быть полезен для научных исследований в области механизмов обучения моделей и их влияния на рез
Annotation:
Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym ...
ID: 2508.08855v2 cs.CL, cs.AI, cs.LG
Показано 331 - 340 из 370 записей