📚 Саммари научных статей из arXiv

Найдено 2042 результатов по запросу 'cs.CL, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

2025-08-19

Авторы:

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabharwal, Reut Tsarfaty

## Контекст В последние годы технологии текстовой обработки и машинного обучения приобрели неоспоримую роль в решении различных задач, включая задачи восприятия речи и компьютерного зрения. Одной из самых выгодных областей использования является машинное знание. Однако существуют значительные проблемы в области улучшения эффективности и точности восприятия и обработки естественного языка. Одним из ключевых задачей является создание совершенно новых моделей, которые будут лучше подходить для более естественных и сложных вопросов, связанных с логикой и научным анализом. Этот аспект является ключевым для повышения уровня конкурентоспособности и точности моделей. ## Метод В нашей работе мы предлагаем методологию, основанную на декомпозиции задач обучения и оценки моделей. Метод предполагает разбиение сложной задачи на несколько меньших подзадач, которые могут быть равномерно распределены между различными моделями. Эта методика позволяет эффективно использовать ресурсы и создавать модели с более точными возможностями для обработки сложных вопросов. Мы также предлагаем новую архитектуру, которая позволяет модели обрабатывать не только отдельные вопросы, но и решать их, используя подход, основанный на многоуровневом анализе. ## Результаты Мы провели эксперименты с использованием новой модели на различных данных, включая не только тексты, но и изображения. Наши результаты показали, что модель достигла достаточно высокой точности в решении сложных задач. Также наблюдалась увеличенная точность при выполнении задач, требующих не только логического представления, но и выполнения нескольких этапов для получения корректного результата. Эти результаты подтверждают эффективность подхода, основанного на декомпозиции задач. ## Значимость Наша работа имеет значительные приложения в области машинного обучения и анализа текстов. Модель может использоваться для различных приложений, включая поиск информации, системы рекомендаций и многие другие. Основным преимуществом является улучшение понимания контекста и уменьшение вероятности ошибок. Это может привести к улучшению качества обслуживания пользователей и эффективности решения сложных вопросов. Будущие исследования будут направлены на увеличение отзывчивости модели и ее устойчивость к непредсказуемым входным данным. ## Выводы Мы представляем новую модель для решения сложных задач, основанную на декомпозиции задач и многоуровневом анализе. Модель показала высокую точность и эффективность в решении задач, требующих логического анализа и естественного языка. Наши результаты подтверж

Annotation:

Large language models (LLMs) are emerging as a go-to tool for querying information. However, current LLM benchmarks rarely feature natural questions that are both information-seeking as well as genuinely time-consuming for humans. To address this gap we introduce MoNaCo, a benchmark of 1,315 natural and complex questions that require dozens, and at times hundreds, of intermediate steps to solve -- far more than any existing QA benchmark. To build MoNaCo, we developed a decomposed annotation pipe...

ID: 2508.11133v1 cs.CL, cs.AI, cs.DB

arXiv PDF

📄 E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection

2025-08-19

Авторы:

Ahmad Mousavi, Yeganeh Abdollahinejad, Roberto Corizzo, Nathalie Japkowicz, Zois Boukouvalas

#### Контекст Современное информационное пространство становится все более угрожающим местом для распространения массовой информации и нарушения прав человека. Одним из ключевых аспектов этой проблемы является распространение массовой информации, которая включает в себя различные методы, такие как ложная информация, глубокое фальсифицирование и дезинформация. Это может привести к дистанционной психологической войне, разрушению социальных связей и психологическому давлению на широкие слои общества. Для того чтобы сделать данные ситуации предсказуемыми и управляемыми, необходимо развитие специализированных методов, которые могут обнаруживать массовые информационные цепи и анализировать их в динамическом порядке. Исследование этой области является ключевым фактором для развития новых систем мониторинга и анализа, которые могут помочь в улучшении динамического мониторинга событий, включая распространение массовой информации. #### Метод E-CaTCH (Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling) является интерпретируемой и масштабируемой системой для обнаружения массовой информации. Её работа основывается на нескольких основных элементах. Во-первых, метод разбивает события на кластеры на основе текстового похожести и темпоральной близости. Затем, для каждого события, E-CaTCH извлекает текстовые и визуальные признаки с использованием предобученных моделей BERT и ResNet. Эти признаки обрабатываются с помощью внутримодального самоподстройного внимания, а затем соединяются двунаправленным кросс-модальным вниманием для образования контекстуализированных, контент-о acктеризированных представлений. Для моделирования прогрессии тематической повестки в динамическом порядке, E-CaTCH разделяет события на перекрывающиеся временные окна и использует улучшенную LSTM с элементами семантического сдвига и моментом для кодирования прогрессии. Метод также интегрирует адаптивную взвешивание классов, регуляризацию классами и тяжелые примеры, чтобы сдвинуть классификационную модель к более стабильной учительской системе. #### Результаты Исследования E-CaTCH проводились на датасетах Fakeddit, IND и COVID-19 MISINFOGRAPH. Результаты показали, что E-CaTCH превосходит состояние технологии по классическим метрикам, таким как F1-score, ROC-AUC и Precision-Recall. Особенно выделяется улучшенный результат в случаях неравновесия класса, где метод показал свою эффективность в обнаружении малочастотных классов. Cross-dataset evaluations также продемонстрировали высокую прогностическую стабильность и гибкость E-CaTCH в различных международных контекстах. ####

Annotation:

Detecting multimodal misinformation on social media remains challenging due to inconsistencies between modalities, changes in temporal patterns, and substantial class imbalance. Many existing methods treat posts independently and fail to capture the event-level structure that connects them across time and modality. We propose E-CaTCH, an interpretable and scalable framework for robustly detecting misinformation. If needed, E-CaTCH clusters posts into pseudo-events based on textual similarity and...

ID: 2508.11197v1 cs.CL, cs.AI, cs.LG, cs.SI

arXiv PDF

📄 Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering

2025-08-19

Авторы:

Changjian Wang, Weihong Deng, Weili Guan, Quan Lu, Ning Jiang

#### Контекст Многошаговой вопросанию (Multi-hop Question Answering, MHQA) требуется интегрировать разнородную информацию из различных параграфов, чтобы вывести правильный ответ. Эта задача требует не только понимания текста, но и построения структуры связей между разными фрагментами информации. Существующие методы обычно опираются на крупномасштабные семантические схожести, но не учитывают тонкие связи между молекулярными фрагментами текста. Это приводит к неэффективности в решении MHQA, где необходима глубокая интеграция семантической и структурной информации. Наша мотивация состоит в том, чтобы разработать метод, который бы одновременно учитывал эти аспекты и повышал точность и эффективность решения MHQA. #### Метод Мы предлагаем новую методику под названием HGRAG (Hypergraph Retrieval-Augmented Generation), которая использует гиперграфы для перекрестной интеграции семантической и структурной информации. Гиперграф строится на основе сущностей, где тонкие сущности (например, слова и фразы) служат узлами, а более крупные фрагменты текста (параграфы) — гиперузлами. Мы использваем взаимосвязи между сущностями для построения структуры гиперграфа. Для поиска связанных фрагментов информации мы применяем специальный метод поиска в гиперграфе, который учитывает как тонкую семантическую схожесть, так и широкую структурную связность. Для того, чтобы обеспечить более точный вывод, мы дополнительно используем модуль для оптимизации результатов поиска, который улучшает как семантическую, так и структурную точность. #### Результаты Мы провести обширные эксперименты на популярных датасетах MHQA, включая HotpotQA и ComplexWebQuestions. Наши результаты показывают, что HGRAG превосходит текущие состояния техники по метрикам качества ответов (accuracy, F1-score). Также, наши реализации позволяют значительно ускорить процесс поиска связанных фрагментов — на 6 раз по сравнению с состоянием техники. Это демонстрирует эффективность нашего подхода в объединении тонкой и крупномасштабной информации. #### Значимость Метод HGRAG может быть применен в различных областях, где требуется понимание текста и интеграция многоуровневой информации, например, в системах ответа на вопросы, глубоком понимании текста, и системах моделирования сложных связей. Наш подход обеспечивает значительные преимущества, такие как улучшенное понимание связности информации и увеличенная точность в выводе ответов. Мы планируем дальнейшие исследования в направлении улучшения моделей гиперграфа и интеграции новых технологий для повышения эффективности и точности. #### Вывод

Annotation:

Multi-hop question answering (MHQA) requires integrating knowledge scattered across multiple passages to derive the correct answer. Traditional retrieval-augmented generation (RAG) methods primarily focus on coarse-grained textual semantic similarity and ignore structural associations among dispersed knowledge, which limits their effectiveness in MHQA tasks. GraphRAG methods address this by leveraging knowledge graphs (KGs) to capture structural associations, but they tend to overly rely on stru...

ID: 2508.11247v1 cs.CL, cs.AI

arXiv PDF

📄 LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought

2025-08-19

Авторы:

Ruiyan Qi, Congding Wen, Weibo Zhou, Shangsong Liang, Lingbo Li

#### Контекст Оценка больших языковых моделей (LLM) в специфических областях, таких как туризм, становится все более важной, но при этом и трудной. Одной из главных проблем является высокая стоимость создания и аннотации больших бенчмарков, а также постоянные проблемы, такие как выдача "вымысловых" ответов (hallucinations). В этой статье предлагается **Label-Free Evaluation of LLM on Tourism using Expert Tree-of-Thought (LETToT)** — рамочный подход, который использует экспертно подобранные структуры мышления для оценки моделей без необходимости использовать масштабные тренировочные данные. Этот подход позволяет эффективно оценить модели и обнаружить их слабые стороны. #### Метод **LETToT** основывается на использовании экспертных "деревьев мышления" (Tree-of-Thought, ToT), которые являются иерархическими структурами, описывающими рациональное решение задачи. Эти деревья вначале строятся экспертами в области туризма, а затем адаптируются и оптимизируются с помощью специальных методов анализа и применения генеративных моделей. Эта методика позволяет создавать детальные структуры, которые могут быть использованы для оценки LLMs. Такая архитектура позволяет сократить зависимость от масштабных аннотированных данных и сфокусироваться на рациональном анализе и решении задач. #### Результаты Было проведено ряд экспериментов с моделями различных размеров, начиная от 32 миллиардов до 671 миллиардов параметров. Было проанализировано, что **DeepSeek-V3** показывает лучшие результаты в области туризма среди моделей большого размера, но даже на этапе рассмотрения этих моделей были выявлены слабые стороны. Более мелкие модели с фокусом на рациональном подходе (например, **DeepSeek-R1-Distill-Llama-70B**) показали оптимальный баланс между точностью и понятностью ответов, особенно при работе с небольшими данными. Этот подход показывал значительные улучшения в точности и конкретности ответов в сравнении с базовыми моделями. #### Значимость Предложенный подход представляет собой значительный шаг в сфере легковесной, без масштабных тренировочных баз данных, оценки LLMs в специфических областях. Он может быть использован в туризме для эффективного проверки моделей, исследования новых архитектур и улучшения точности ответов. Одним из ключевых преимуществ является повышение эффективности и снижение затрат при создании аннотированных данных. Этот подход может быть расширен на другие области, где требуется систематическая оценка моделей, включая медицину, финансы и юриспруденцию. #### Выводы С помощью **LETToT** был установлен новый парадигмный подход к оценке LLMs в области туризма. Р

Annotation:

Evaluating large language models (LLMs) in specific domain like tourism remains challenging due to the prohibitive cost of annotated benchmarks and persistent issues like hallucinations. We propose $\textbf{L}$able-Free $\textbf{E}$valuation of LLM on $\textbf{T}$ourism using Expert $\textbf{T}$ree-$\textbf{o}$f-$\textbf{T}$hought (LETToT), a framework that leverages expert-derived reasoning structures-instead of labeled data-to access LLMs in tourism. First, we iteratively refine and validate h...

ID: 2508.11280v1 cs.CL, cs.AI

arXiv PDF

📄 ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

2025-08-19

Авторы:

Axel Delaval, Shujian Yang, Haicheng Wang, Han Qiu, Jialiang Lu

## Контекст Детектирование токсичности в текстах является важной задачей, особенно в современных социальных сетях. Хотя большой прогресс осуществился в этой области на английском языке, задача детектирования токсичности на французском остается недоработанной, в основном из-за отсутствия культурно ориентированных и крупномасштабных данных. Таким образом, необходимо развитие методик и ресурсов для эффективного обнаружения токсичности на французском языке. ## Метод Для решения этой проблемы был создан новый публичный бенчмарк ToxiFrench, состоящий из 53 622 комментариев на французском языке. Данный бенчмарк был построен с помощью семи-автоматической аннотационной технологии, которая снизила участие человеческого аналитика до 10%, используя высокоточные модели языка. Для контроля качества использовалась ручная проверка. Была осуществлена оценка различных моделей, включая стандартные и большие модели, такие как GPT-40, и получены результаты, демонстрирующие значительные различия в производительности. Для улучшения моделей был предложен новый подход Chain-of-Thought (CoT) fine-tuning с динамическим взвешенным значением подсказок, который позволяет модели лучше понимать и развивать свой собственный логический подход к задаче. ## Результаты Эксперименты показали, что наиболее важным фактором повышения удобочитаемости является не только размер модели, но и ее способность к логическому изложению своих выводов. Доказано, что Small Language Models (SLMs) вы most promising models. Например, одна из SLM-моделей показала острое улучшение в F1-мерсе с 13% в сравнении с целью Fine-tuning. Кроме того, эта модель показала свою многоязычную способность, показывая свою эффективность на других языках, что демонстрирует перспективы для расширения этого подхода. ## Значимость Результаты демонстрируют, что этот подход может быть более эффективен для обнаружения токсичности сравнительно с большими моделями, и что он может быть использован в других языках. Эта методика может быть применена в сферах, где важно обеспечить безопасность и отсутствие насилия в онлайн-коммуникации. Это может привести к развитию безопасных интернет-платформ, предупреждению беспричинного насилия и улучшению общественного благосостояния. ## Выводы Полученные результаты показывают, что динамично взвешенный CoT fine-tuning может существенно повысить качество моделей для задач обнаружения токсичности, даже при использовании небольших моделей. Этот подход может быть применен для развития методик обнаружения токсичности на других языках, что может стать значительным шагом в обеспечении безопасности и правильности многояз

Annotation:

Detecting toxic content using language models is crucial yet challenging. While substantial progress has been made in English, toxicity detection in French remains underdeveloped, primarily due to the lack of culturally relevant, large-scale datasets. In this work, we introduce TOXIFRENCH, a new public benchmark of 53,622 French online comments, constructed via a semi-automated annotation pipeline that reduces manual labeling to only 10% through high-confidence LLM-based pre-annotation and human...

ID: 2508.11281v1 cs.CL, cs.AI, cs.CY, 68T50, I.2.7

arXiv PDF

📄 SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems

2025-08-19

Авторы:

Beichen Guo, Zhiyuan Wen, Yu Yang, Peng Gao, Ruosong Yang, Jiaxing Shen

## Контекст В последние годы автоматизация генерирования академических серверов (Automatic Survey Generation, ASG) приобрела важное место в сфере естественного языкового процессинга. Этот процесс, который принято выполнять вручную, требует значительных затрат времени и усилий. Но недавние достижения в области бо LARGE LANGUAGE MODELS (LLMs) открыли новые возможности для эффективного создания серверов. Однако существуют проблемы, такие как безустойчивость, несогласованность между метриками и пользовательскими предпочтениями. Также нет согласованных подходов к подтверждению качества генерируемых серверов. Таким образом, необходима систематизированная и многогранная методика для оценки систем ASG, чтобы обеспечить объективность и достоверность результатов. ## Метод SGSimEval предлагает совершенно новый подход к оценке систем ASG, который основывается на многомерной оценке. Он включает оценку трех ключевых аспектов: **образца (outline)**, **содержания (content)** и **ссылок (references)**. Каждый аспект имеет свои подсчетные показатели, которые тесно сочетаются с прагматическими технологиями. Для оценки выдаются два типа результатов: **LLM-based score** и важная метрика **human preference**. LLM-based score оценивается в рамках многомерной модели, которая включает в себя не только текст, но и целостность системы. Human preference metrics, в свою очередь, позволяют учитывать как непосредственное качество, так и гармонию с пользовательскими предпочтениями. ## Результаты В ходе экспериментов использовались коллекции данных из академических серверов, где были оценены основные системы ASG. Обнаружено, что текущие системы ASG превосходят пользовательские ожидания в **определении образца (outline generation)**, но имеют существенные проблемы в **содержании (content generation)** и **ссылках (references)**. Метрики human preference показали хорошую корреляцию с человеческими оценками. Эта система позволяет оценивать системы не только по логичности и грамматической корректности, но и с точки зрения включенности в реальность. ## Значимость SGSimEval может применяться для разработки и валидации систем ASG в различных областях, включая научный анализ, образовательные системы и даже коммерческие решения. Особым преимуществом является возможность получения объективных оценок, а также оценки пользовательских предпочтений. Эта методика может способствовать улучшению качества генерируемых серверов, обеспечивая более точный функционал и удовлетворение потребностей пользователей. ## Выводы SGSimEval представляет собой мощный инструмент для оценки систем ASG, который объединяет многомерную оценку, LLM-based scoring и human preference metrics. Он определяет сильные и слабые стороны текущих сист

Annotation:

The growing interest in automatic survey generation (ASG), a task that traditionally required considerable time and effort, has been spurred by recent advances in large language models (LLMs). With advancements in retrieval-augmented generation (RAG) and the rising popularity of multi-agent systems (MASs), synthesizing academic surveys using LLMs has become a viable approach, thereby elevating the need for robust evaluation methods in this domain. However, existing evaluation methods suffer from...

ID: 2508.11310v1 cs.CL, cs.AI, cs.IR

arXiv PDF

📄 When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

2025-08-19

Авторы:

Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov

#### Контекст Large Language Models (LLMs) являются высокоточными инструментами с практическими применениями во многих областях, но остаются чувствительными к незначительным несемантическим изменениям в формате и фразировании запросов. Эти нюансы могут привести к непоследовательным результатам. Улучшение прочности запросов к LLMs является ключевым заданием для обеспечения надежности и последовательности их ответов в реальных сценариях применения. Несмотря на существование нескольких подходов к повышению прочности запросов, существует недостаток в систематических исследованиях, сравнивающих эти методы в одной экспериментальной модели. Этот отсутствующий аспект стало мотивацией для настоящего исследования. #### Метод Мы осуществили подробную оценку пяти методов улучшения прочности запросов к LLMs: 1. **Позиционирование запросов (Prompt Positioning)** — изменение порядка слов в запросе. 2. **Обратный фрагмент (Reverse Fragment)** — добавление обратных версий фрагментов запроса. 3. **Перефразирование (Rewording)** — изменение формулировки запроса, оставив смысл нетронутым. 4. **Удаление знаков препинания (Punctuation Removal)** — удаление всех знаков препинания. 5. **Добавление случайных слов (Random Words Addition)** — добавление случайных слов в запрос. Тестирование проводилось на 8 моделях LLM, включая Llama, Qwen и Gemma, на 52 задачах из Natural Instructions dataset. Мы использовали подходы из области как традиционных методов (fine-tuning), так и бейджинговых (in-context learning), чтобы получить сложившуюся экспериментальную модель. #### Результаты Мы выполнили ряд экспериментов, которые позволили сравнить эффективность различных методов улучшения прочности запросов. Для этого мы использовали различные типы распределенных сдвигов данных, чтобы оценить общую гибкость и стабильность. Наши результаты показали, что **Позиционирование запросов** и **Перефразирование** показали самые высокие показатели прочности, особенно в случае распределенных сдвигов. Метод **Удаления знаков препинания**, несмотря на простоту, также продемонстрировал значительные улучшения в некоторых случаях. #### Значимость Наши результаты имеют широкое применение в различных сферах, включая обработку естественного языка, системы рекомендаций и диалоговые системы. Методы, которые мы описали, могут помочь улучшить надежность и производительность LLMs в реальных условиях. Это также может способствовать развитию новых методов для повышения прочности и стабильности LLMs в области обработки естественного языка. #### Выводы Мы представили первый систематический эксперимент, сравнивающий методы улучшения прочности запросов к LLMs в рамках единой модели. Наши находки демонстрируют, что оптимиза

Annotation:

Large Language Models (LLMs) are highly sensitive to subtle, non-semantic variations in prompt phrasing and formatting. In this work, we present the first systematic evaluation of 5 methods for improving prompt robustness within a unified experimental framework. We benchmark these techniques on 8 models from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions dataset. Our evaluation covers robustness methods from both fine-tuned and in-context learning paradigms, and tests t...

ID: 2508.11383v1 cs.CL, cs.AI

arXiv PDF

📄 Retrieval-augmented reasoning with lean language models

2025-08-19

Авторы:

Ryan Sze-Yin Chan, Federico Nanni, Tomas Lazauskas, Rosie Wood, Penelope Yong, Lionel Tarassenko, Mark Girolami, James Geddes, Andrew Duncan

## Контекст В последние годы рост производительности широкомасштабных языковых моделей позволил достичь показателей, которые были раньше недостижимы. Однако эти модели требуют больших ресурсов и не подходят для приложений, требующих высокой производительности в ресурсозависимых или защищенных средах. Более того, существующие решения, основанные на внешних источниках, не могут обеспечить защиту конфиденциальных данных. Мы разработали модель, которая способна обрабатывать запросы в среде, ограниченной ресурсами, с помощью лёгкой модели языка и встроенной системы восстановления. Мы сосредоточились на задачах, требующих логического рассуждения, и предоставили возможность использовать модель в безопасной и эффективной форме. ## Метод Наша модель строится на основе тестируемого расширения модели (test-time scaling) и использует лёгкую модель языка с встроенной системой восстановления. Мы использовали тренированные модели Qwen-2.5-Instruct для понимания и синтезирования ответов. Для расширения функций модели, мы внедрили синтетическое генерирование запросов и алгоритмы фронтарных моделей (DeepSeek-R1). Мы использовали корпус, состоящий из страниц описания более 1000 заболеваний из Национального здравоохранения Великобритании (NHS). Мы разработали методы сжатия документов с помощью суммирования и применения индексации для увеличения производительности. Наша модель обрабатывает запросы, используя логический анализ, что позволяет нам создавать более точные и понятные ответы. ## Результаты Проведенные тесты показали, что наша модель демонстрирует высокую точность ответов и последовательность решений в сравнении с некоторыми более широкомасштабными моделями. Мы сравнили результаты с другими лёгкими моделями и достигли близкого уровня показателей, но с значительно более маленькой моделью. Модель показала способность работать в безопасной среде и обрабатывать достаточно сложные запросы с высокой точностью. ## Значимость Наша модель может применяться в различных сферах, где необходима высокая точность, быстродействие и защищённость. Например, в медицине, в области финансов и в промышленности, где защита конфиденциальных данных их важность. Мы показали, что модель может быть эффективно развернута в ограниченных ресурсах, не требуя дорогостоящих серверных решений. Это делает её перспективной для многих задач, где требуется быстрая реакция и высокая производительность. ## Выводы Мы разработали модель, которая значительно улучшает показатели производительности и точности ответов в среде, ограниченной ресурсами. Мы показали,

Annotation:

This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retriev...

ID: 2508.11386v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Reference Points in LLM Sentiment Analysis: The Role of Structured Context

2025-08-19

Авторы:

Junichiro Niimi

## Контекст Область исследования — sentiment analysis (SA), которая направлена на понимание человеческого мнения, чувств и отношений к разным объектам с помощью технических методов. Традиционно SA применяется в маркетинге для того, чтобы понять потребительские предпочтения. Существуют различные методологии SA, но большинство из них ограничиваются анализом текста отзывов. Однако маркетинговые теории, такие как **проспектная теория** и **теория ожиданий-расхождений**, подчеркивают, что оценки потребителей не только влияют на самом деле на опыт, но и способствуют дополнительным справочным точкам. Этот фактор может оказать влияние на то, как потребители интерпретируют свои опыты. Несмотря на то, что многие NLP-исследования стремятся к точному классификации отзывов, нет достаточных исследований, которые бы изучили влияние дополнительных справочных точек на SA. Этот факт мотивирует нас для разработки и исследования, как дополнительные справочные точки могут влиять на точность SA при использовании LLMs. ## Метод Для исследования мы используем сверточную LLM с 3 миллиардами параметров. Для проведения экспериментов мы создаем две версии образца пробы: **NL** (натуральный язык) и **JSON** (форматированный). Эти две версии образца пробы содержат одинаковую информацию, но в разных форматах. JSON-формат включает дополнительную справочную информацию, такую как рейтинги, объекты и другие справочные данные. Мы используем две категории отзывов — **рестораны** и **ночная жизнь** — из Yelp-сервиса. Эти категории были выбраны потому, что они позволяют провести компаративное исследование, в котором отзывы о разных типах бизнесов могут быть сравниваться. Мы точно измеряем точность SA, используя метрики **Macro-F1** и **RMSE**. Также мы проводим анализ, чтобы понять, влияет ли результат на реальное контекстное обоснование или просто на прокси-метрики. ## Результаты Эксперименты показали, что JSON-формат пробы позволяет достичь значительных улучшений в точности SA в сравнении с NL-форматом. На **ресторанах**, где используется JSON-формат, Macro-F1 увеличивается на **1.6%**, а RMSE уменьшается на **16%**. На **ночной жизни**, JSON-формат повышает Macro-F1 на **4%**, а RMSE уменьшается на **9.1%**. Эти результаты показывают, что добавление справочной информации в формате JSON позволяет повысить точность SA, даже без требующегося дополнительного моделирования. Последующий анализ показывает, что эти улучшения являются связаны с контекстным логическим мышлением, а не с прокси-метриками, что делает JSON-формат более эффективным. ## Значимость Наши рез

Annotation:

Large language models (LLMs) are now widely used across many fields, including marketing research. Sentiment analysis, in particular, helps firms understand consumer preferences. While most NLP studies classify sentiment from review text alone, marketing theories, such as prospect theory and expectation--disconfirmation theory, point out that customer evaluations are shaped not only by the actual experience but also by additional reference points. This study therefore investigates how the conten...

ID: 2508.11454v1 cs.CL, cs.AI

arXiv PDF

📄 Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models

2025-08-19

Авторы:

Qiguang Chen, Dengyun Peng, Jinhao Liu, HuiKang Su, Jiannan Guan, Libo Qin, Wanxiang Che

```## Контекст Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) позволили улучшить их возможности для решения сложных задач, включая решение проблем с помощью Long Chain-of-Thought (CoT). Однако данный подход часто связан с значительным издержечным объемом расчётов, что сказывается на эффективности вычислений и отрицательно влияет на реальном времени приложения. Основной причиной этого является то, что существующие методы определяют трудность задач динамически, основываясь на примерах, предоставленных человеком. Это не соответствует самосознанию LLM в отношении своей сложности, что приводит к неэффективности. Данное исследование предлагает решение этой проблемы, разработав систему Dynamic Reasoning-Boundary Self-Awareness Framework (DR. SAF), которая включает в себя три ключевых компонента: Boundary Self-Awareness Alignment, Adaptive Reward Management и Boundary Preservation Mechanism. Эти компоненты позволяют LLMs динамически оценивать свою сложность и корректировать рассуждения в зависимости от сложности задачи, балансируя между эффективностью и точностью. ## Метод DR. SAF использует три ключевых компонента для оптимизации процесса рассуждений LLMs. 1. **Boundary Self-Awareness Alignment**: этот компонент позволяет модели определять свою степень самосознания по отношению к сложности задачи. 2. **Adaptive Reward Management**: этот подход позволяет LLMs адаптировать свои внутренние награды в зависимости от прогресса в решении задачи. 3. **Boundary Preservation Mechanism**: этот механизм гарантирует, что модель сохранит логическую и математическую точность в ходе оптимизации процесса рассуждений. Эти компоненты дают LLMs возможность эффективно адаптироваться к сложности задачи, тем самым повышая общую эффективность. ## Результаты Для оценки эффективности DR. SAF проводились эксперименты на различных наборах данных, включая проблемы с логическим и математическим рассуждением. Эксперименты показали, что DR. SAF позволяет снизить общий объем ответов на 49.27% без существенного потери точности. Кроме того, DR. SAF повышает производительность на 6.59x по отношению к токенам, а также уменьшает время обучения в 5 раз. Эти результаты показывают, что DR. SAF эффективно работает в условиях ограниченных ресурсов, а также превосходит традиционные методы в токенной эффективности с более чем 16% улучшением точности при высокой нагрузке. ## Значимость DR. SAF может быть применено в различных областях, включая реальном времени приложения, социальные сети, системы поддержки принятия решений, где необходима быстрая и точная обработка информации. Основное преимущество DR. SAF заключается в том, что он позволяет значительно повысить эффективность расчётов без потери точности. Это может привести к более быстрому развитию ИИ, по

Annotation:

Recent advancements in large language models (LLMs) have greatly improved their capabilities on complex reasoning tasks through Long Chain-of-Thought (CoT). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. To improve the efficiency, current methods often rely on human-defined difficulty priors, which do not align with the LLM's self-awared difficulty, leading to inefficiencies. In this pap...

ID: 2508.11582v1 cs.CL, cs.AI

arXiv PDF

1
2
183
184
185
186
187
204
205

Показано 1841 - 1850 из 2042 записей