📚 Саммари научных статей из arXiv

Найдено 50 результатов по запросу 'cs.CL, cs.AI, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 What Is The Political Content in LLMs' Pre- and Post-Training Data?

2025-09-30

Авторы:

Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza

#### Контекст Large language models (LLMs) широко используются в различных сферах, но одной из их характеристик является политическая биаз. Несмотря на то, что политические предрассудки моделей часто обсуждаются, их происхождение и источники остаются малоизученными. Одним из ключевых аспектов понимания этого явления является анализ политического содержания данных, используемых в обучении моделей. В настоящем исследовании анализируется содержание данных, использованных в обучении модели OLMO2, последней полностью открытой модели, выпущенной с открытым исходным кодом и её полным набором данных. Эта работа призвана раскрыть, как политический контент в данных влияет на политический биаз моделей. #### Метод Для анализа использовались пре- и пост-тренировочные данные модели OLMO2. Данные автоматически аннотированы с использованием методов автоматического определения политического ориентира документов. Для обеспечения точности использовались различные источники данных, включая новостные статьи, политические мемы и другие тексты. Для анализа использовались методы статистического анализа и машинного обучения для выявления зависимостей между политическим содержанием данных и политическим биазом модели. #### Результаты Изучение политического содержания данных показало, что пре-тренировочные данные OLMO2 содержат сильно выраженное политическое содержание, которое значительно превышает политическую активность в пост-тренировочных данных. Также выявлено, что эти данные в основном относятся к левосторонней политической ориентации. Было выявлено, что политические тексты окраинных политических позиций формулируются с различными легітимностью и ценностями. Анализ показал, что политический биаз в данных сильно коррелирует с политическим биазом модели при оценке политических вопросов. #### Значимость Результаты имеют значимость для широких областей применения, включая разработку более ответственных моделей, анализ политических предрассудков в тексте. Изучение политического содержания данных позволит создавать более транспарентные модели и избегать политических предрассудков при их используемой. Данные результаты также могут быть использованы для расширения понимания политических предрассудков в машинном обучении и разработки новых подходов к оценке и контролю политического содержания данных. #### Выводы Исследование показало, что политический содержание в данных является ключевым фактором, влияющим на политический биаз моделей. Найдено, что политическое содержание в пре-тренировочных данных значительно влияет на политический биаз модели в пост-тренировочном этапе. Будущи

Annotation:

Large language models (LLMs) are known to generate politically biased text, yet how such biases arise remains unclear. A crucial step toward answering this question is the analysis of training data, whose political content remains largely underexplored in current LLM research. To address this gap, we present in this paper an analysis of the pre- and post-training corpora of OLMO2, the largest fully open-source model released together with its complete dataset. From these corpora, we draw large r...

ID: 2509.22367v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Which Cultural Lens Do Models Adopt? On Cultural Positioning Bias and Agentic Mitigation in LLMs

2025-09-27

Авторы:

Yixin Wan, Xingrun Chen, Kai-Wei Chang

## Контекст Large language models (LLMs) становятся все более важной частью области искусственного интеллекта, оперируя в решении широкого спектра задач, от текстового генерирования до синтеза кода. Несмотря на их мощь и универсальность, они не освобождаются от проблемы специфичности культурного контекста. Исследователи обнаружили, что LLMs часто придерживаются определенного культурного подхода, в основном ориентированного на успешную культуру США. Это приводит к ситуации, когда другие культуры оказываются внешними, что может повлиять на справедливость и точность их полученных результатов. Наша работа фокусируется на установлении этого нового вида культурного позиционирования в генерируемых текстах LLMs, а также на разработке методик для исправления этого неравенства. ## Метод Мы предлагаем **CultureLens Benchmark** — набор 4000 заданий на получение текстов с высшим уровнем точности и позиционирования. Наши эксперименты основываются на задаче генерирования интервью скриптов, где LLM принимает роль репортёра, работающего на местных людях в различных культурных окружениях. Метрики оценки включают в себя статистические показатели для выявления того, сколько процентов текста генерируется с инсайдерским тоном, и как часто модель прибегает к внешнему, "внешнему" тону. Для методологии было разработано два прототипа агентной модели: (1) **Single-Agent Method**, в которой LLM предпринимает глубокую процедуру саморефлексии и корректировки генерируемого текста, и (2) **Multi-Agent Method**, в которой LLM работает в иерархии специализированных агентов, подходящих для разных этапов процесса. ## Результаты Наши эксперименты показали, что LLMs, такие как GPT-3.5 и LLaMA, повторяют культурные стереотипы: они адекватно генерируют тексты с инсайдерским тоном для контекстов США, но часто не умеют правильно отражать культуры, которые не являются глобально влияющими. Например, в скриптах на тему интервью с местными людьми в Африке, Индии и других культурных регионах, модель часто оказывается внешним, недостаточно точным в отображении культурных характеристик. Методы, предложенные в нашей работе, показали существенный прогресс в снижении возникающих культурных упреждений, повысив точность и честность генерируемых текстов. ## Значимость Это работа имеет значительное значение для обеспечения справедливости в генерируемых текстах LLMs. Это может помочь в оптимизации использования LLMs в межкультурных контекстах, таких как медицина, юриспруденция, и международное общение. Она также открывает новые пути для разработки более честных и и

Annotation:

Large language models (LLMs) have unlocked a wide range of downstream generative applications. However, we found that they also risk perpetuating subtle fairness issues tied to culture, positioning their generations from the perspectives of the mainstream US culture while demonstrating salient externality towards non-mainstream ones. In this work, we identify and systematically investigate this novel culture positioning bias, in which an LLM's default generative stance aligns with a mainstream v...

ID: 2509.21080v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Evaluating Large Language Models for Detecting Antisemitism

2025-09-25

Авторы:

Jay Patel, Hrudayangam Mehta, Jeremy Blackburn

-------------------------------------------------------------------------------------------------------------------------- ## Контекст Детектирование ненавистного контента является важной и сложной задачей в современной цифровой среде. Автоматизированные системы, такие как машинное обучение, могут помочь в этом, но требуют непрерывного обновления для адаптации к быстро меняющемуся социальному ландшафту. Антисемитизм, как одна из форм ненависти, требует особого внимания из-за его постоянного проявления в цифровых пространствах. Однако традиционные методы могут быть неэффективны в учёте сложности и субъективности этой проблемы. В данном исследовании предлагается использовать бо LLM (большой языковой модель) для обнаружения антисемитизма, а также изучить способность LLMs в осмыслении различных политических норм и политического определения. -------------------------------------------------------------------------------------------------------------------------- ## Метод Для оценки LLMs (Large Language Models) в области детектирования антисемитизма были использованы восемь открытых моделей. Исследование включает оптимизацию подходов к архитектуре моделей и техникам ведения контекста. Для улучшения результатов в рамках определения политики антисемитизма была разработана новая методика, названная Guided-CoT (Guided Chain of Thought). Эта методика обеспечивает гибкое управление контекстом и подачей политических определений в модель. Модели были оценены на различных наборах данных, включая обученные и тестовые данные, с различными уровнями сложности. Мы также исследовали множество вариантов запросов, чтобы определить, какие техники ведения контекста дают наилучший результат. -------------------------------------------------------------------------------------------------------------------------- ## Результаты Проведенные эксперименты показали, что Guided-CoT значительно улучшает производительность LLMs в задаче детектирования антисемитизма. Модель Llama 3.1 70B показала высокую эффективность, находясь сверху в ряду, даже несмотря на отсутствие дополнительного файна-тюнинга. Было выявлено, что LLM модели с большой мощностью вычислений могут лучше работать с контекстом, чем модели с меньшей мощностью. Однако, даже среди моделей с одинаковой мощностью, разница в показателях зависит от техники ведения контекста и оптимизации. Также было выявлено, что некоторые модели демонстрируют нерегулярности в поведении, в том числе потенциально парадоксальные результаты в зависимости от контекста. -------------------------------------------------------------------------------------------------------------------------- ## Значимость Результаты этого исследования имеют значимые последствия для применения LLMs в области мониторинга содержимого в социальных сетях. Они могут быть использованы для расширения возможностей детектирования ненавистного контента, в том числе антисемитизма, в реальном времени. Благодаря новой методике Guided-CoT модели могут более точно и эффективно рассматривать контекст

Annotation:

Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context po...

ID: 2509.18293v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Anecdoctoring: Automated Red-Teaming Across Language and Place

2025-09-25

Авторы:

Alejandro Cuevas, Saloni Dash, Bharat Kumar Nayak, Dan Vann, Madeleine I. G. Daepp

## Контекст Генерирующие модели ИИ, такие как текстовые генераторы текста, становятся все более популярными и применяются в различных областях, от творчества до управления бизнесом. Однако их широкое распространение также сопрягается с рисками, в том числе использованием для распространения дезинформации. Это представляет собой значительную угрозу для общества, особенно в международном масштабе. Существуют технические средства, такие как регулирование и моделирование, которые пытаются справиться с этой проблемой. Тем не менее, многие из них ориентированы на конкретные языки и культуры, что приводит к несоответствию в разных регионах. Это оставляет многие регионы без эффективных средств для защиты от дезинформации. В данной работе мы предлагаем "анекдотическое ред-теминг" (anecdoctoring) — методику, которая автоматически генерирует атакующие запросы в различных языках и культурах. Мы создаем наборы данных нефактурных утверждений из разных стран и языков, чтобы сформировать универсальный подход к защите от дезинформации. ## Метод Мы используем метод анекдотического ред-теминга, который состоит из нескольких этапов. В начале мы собираем нефактурные утверждения из популярных факт-чеккинг-сайтов в трех языках (английский, испанский, и хинди) и двух регионах (США и Индия). Эти утверждения агрегируются в кластеры, основываясь на общих темах и факторных моделях. Затем, для каждого кластера мы создаем знаний граф, который включает в себя связанные с ним факты и контекст. Эти знаний графы используются для обучения атакующей генерирующей модели ИИ, которая генерирует адверские запросы к модели. Мы проверяем эффективность нашего подхода с помощью тестов на различных моделях, включая GPT-3 и другие текстовые генераторы. Мы измеряем успешность атаки на основе вероятности ложности и полноты ответов. ## Результаты Мы проводим ряд экспериментов, чтобы проверить то, насколько эффективно работает наш подход. Мы протестировали наши методы на нефактурных утверждениях из разных регионов и языков. Мы обнаружили, что наш метод показывает высокую успешность атаки, значительно превосходя методы, основанные на пару-пробегах. Также мы обнаружили, что наш подход дает более подробный анализ ложных утверждений, позволяя понять, почему они считаются ложными. ## Значимость Наш подход имеет широкие применения в области защиты от дезинформации. Он может использоваться для создания эффективных средств мониторинга и защиты от ложных утверждений

Annotation:

Disinformation is among the top risks of generative artificial intelligence (AI) misuse. Global adoption of generative AI necessitates red-teaming evaluations (i.e., systematic adversarial probing) that are robust across diverse languages and cultures, but red-teaming datasets are commonly US- and English-centric. To address this gap, we propose "anecdoctoring", a novel red-teaming approach that automatically generates adversarial prompts across languages and cultures. We collect misinformation ...

ID: 2509.19143v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Implicit Behavioral Alignment of Language Agents in High-Stakes Crowd Simulations

2025-09-24

Авторы:

Yunzhe Wang, Gale M. Lucas, Burcin Becerik-Gerber, Volkan Ustun

## Контекст Появление языковоориентированных генерирующих агентов сильно изменило возможности социальных симуляций в широких областях, от обучения интерперсональных навыков до формирования политических решений. Однако в этих симуляциях часто наблюдается отклонение поведения генерирующих агентов от реальных данных и ожиданий экспертов. Это проблема, известная как **Behavior-Realism Gap**, становится важной темой для исследований, так как несоответствие между агентским поведением и реальностью может привести к ошибочным выводам и неэффективным решениям в критически важных ситуациях. Наша мотивация заключается в создании методологии, которая улучшит реализм и надежность поведения генерирующих агентов в критически важных ситуациях. ## Метод Для решения проблемы Behavior-Realism Gap мы представляем **Persona-Environment Behavioral Alignment (PEBA)** — новую теоретическую модель, которая визуализирует поведение как функцию личности и окружения. PEBA формулируется как задача соответствия распределений, что позволяет адаптировать поведение генерирующих агентов к реальным данным. Для реализации мы предлагаем **PersonaEvolve (PEvo)**, алгоритм на основе Large Language Models (LLM), который итеративно оптимизирует субъективные характеристики агентов, чтобы добиться более реалистичного поведения. Основные элементы PEvo включают: - **Принцип адаптации**: итеративное уточнение личностных характеристик для достижения соответствия распределению реальности. - **Окружение как фактор**: интеграция контекста окружения для более естественного поведения. - **Оптимизация динамических сценариев**: адаптация поведения к изменению условий симуляции. ## Результаты Мы проверили PEvo в симуляции активного штурма с помощью специально разработанной среды. Эксперименты показали следующие результаты: - **Снижение распределенного отклонения**: PEvo достиг 84% среднего снижения распределенного отклонения по сравнению с ситуацией без управления поведением. - **Превосходство перед базовыми методами**: PEvo показал 34% лучшую реалистичность по сравнению с алгоритмами, основанными на эксплицитных инструкциях. - **Устойчивость и гибкость**: рефинированные личности агентов показали высокую общим поведением в новых, схожих ситуациях. Эти результаты доказывают, что PEvo не только улучшает реализм поведения, но и делает его более надежным в критически важных ситуациях. ## Значимость Предложенный подход может быть применен в следующих областях: - **Обучение интерперсональных навыков**: где реалистичное поведение генерирующих агентов является ключевым для эффективности. - **Политическое решающее процесс**: где реа

Annotation:

Language-driven generative agents have enabled large-scale social simulations with transformative uses, from interpersonal training to aiding global policy-making. However, recent studies indicate that generative agent behaviors often deviate from expert expectations and real-world data--a phenomenon we term the Behavior-Realism Gap. To address this, we introduce a theoretical framework called Persona-Environment Behavioral Alignment (PEBA), formulated as a distribution matching problem grounded...

ID: 2509.16457v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models

2025-09-20

Авторы:

Jiachen Fu, Chun-Le Guo, Chongyi Li

-------------------------------------- ## Контекст В последние годы быстро развиваются большие языковые модели (LLMs), которые применяются во многих сферах, от поиска информации до создания текстов. Но при этом возрастает и их потенциальная опасность, так как тексты, создаваемые LLMs, могут использоваться для распространения неточной или вредоносной информации. Это привело к развитию задачи machine-generated text detection (MGTD) — определения того, был ли текст сгенерирован с помощью машины или же написан человеком. Однако существующие подходы сталкиваются с проблемами в реальных условиях. Например, zero-shot детекторы опираются на распределение выходных данных модели, что делает их нестабильными. Тренировочные детекторы, в свою очередь, часто переобучаются к конкретным данным, что ограничивает их общеутверждаемую эффективность. Эти ограничения мотивируют развитие более универсальных и надежных способов обнаружения сгенерированного текста. -------------------------------------- ## Метод Для решения этих проблем предлагается новая методология под названием Direct Discrepancy Learning (DDL). Это оптимизационный подход, который напрямую учитывает задачу MGTD при обучении модели. В отличии от существующих методов, DDL не ограничивается поиском корреляции с результатами модели-генератора, а учитывает конкретные особенности задачи MGTD. Это означает, что модель не только может быть более точной в работе, но и более устойчива к разным типам текстов и стилям генерации. Для реализации DDL была разработана дополнительная архитектура, интегрированная в общую модель DetectAnyLLM. Эта архитектура включает в себя многоуровневые слои, которые работают совместно для оптимизации результатов MGTD. -------------------------------------- ## Результаты Проведенные эксперименты охватили большой набор данных, включающий тексты сгенерированные 17 LLMs, а также тексты, написанные человеком. Тестирование проводилось на нескольких тестовых наборах данных, чтобы оценить общую подвижность модели и ее устойчивость к разным типам текста. Результаты показали, что DetectAnyLLM показывает значительное улучшение по сравнению с другими моделями MGTD, особенно в ситуациях, где данные относительно нестандартны или неожиданны. Например, модель DetectAnyLLM демонстрировала более 70% улучшения в производительности по сравнению с базовой моделью, несмотря на то, что оба использовали одинаковые данные для обучения. Эти результаты подтверждают эффективность DDL и его влияние на улучшение общей обнаружительной способности. -------------------------------------- ## Значимость Модель DetectAnyLLM открывает новые возможности для обнаружения текстов, сгенерированных LLMs, в различных сферах, включая модерацию контента, защиту от ботов и обеспечение честности в цифровой сфере. Особую значим

Annotation:

The rapid advancement of large language models (LLMs) has drawn urgent attention to the task of machine-generated text detection (MGTD). However, existing approaches struggle in complex real-world scenarios: zero-shot detectors rely heavily on scoring model's output distribution while training-based detectors are often constrained by overfitting to the training data, limiting generalization. We found that the performance bottleneck of training-based detectors stems from the misalignment between ...

ID: 2509.14268v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

2025-09-17

Авторы:

Sai Kartheek Reddy Kasu

## Контекст В последние годы искусственная интеллектуальные системы (AI) начали играть важную роль в сфере ментального здоровья, предоставляя возможности для диагностики, терапии и поддержки пациентов. Однако эти системы часто сталкиваются с этическими проблемами, такими как конфиденциальность, самостоятельность, добросовестность и влияние биаса. Недостаточное развитие специализированных бенчмарков для оценки этического разума в AI ставит под угрозу качество решений и безопасность пациентов. Эти сложности подчеркивают необходимость развития инструментов, которые могли бы оценивать интеллектуальные системы на умение решать сложные этические задачи в медицинской практике. ## Метод EthicsMH — это пилотный бенчмарк, состоящий из 125 сценариев, которые имитируют реальные этические дилеммы в психиатрии и терапии. Каждый сценарий включает в себя несколько вариантов решения, экспертно подкрепленные разборами, ожидаемым поведением модели, реальным влиянием решения и многосторонними точками зрения. Методология основывается на сочетании ручной генерации с помощью LLMs, чтобы создать реалистичные и комплексные сценарии. Эта архитектура позволяет не только оценивать уровень точности решений, но и проверять качество объяснений и соответствие профессиональным нормам. ## Результаты По мере проведения экспериментов было оценено, что EthicsMH позволяет эффективно оценивать системы на умение решать этические задачи в ментальном здоровье. Используя данные из реальных ситуаций, бенчмарк продемонстрировал, что модели AI, особенно те, которые используются в критических ситуациях, часто сталкиваются с проблемами в понимании и принятии этичного решения. Были выявлены преимущества и недостатки текущих моделей AI в решении таких задач, что дает возможность усовершенствовать их в будущем. ## Значимость EthicsMH может применяться в разработке и оценке AI-систем для ментального здоровья, обеспечивая новый подход к оценке их этической ценности и качеству решений. Он предоставляет возможность улучшения систем, обеспечивая их более ответственное использование в ключевых областях, таких как поддержка пациентов, диагностика и терапия. Этот бенчмарк также может способствовать расширению знаний в области AI и этики, способствовать созданию более интеллектуальных, чувствительных и ответственных AI-систем для общества. ## Выводы EthicsMH — первый шаг в развитии бенчмарков для оценки этического разума в AI-системах, ориентированных на ментальное здоровье. Его модели и сценарии позволяют проводить глубокую аналитику того, как AI может решать этические

Annotation:

The deployment of large language models (LLMs) in mental health and other sensitive domains raises urgent questions about ethical reasoning, fairness, and responsible alignment. Yet, existing benchmarks for moral and clinical decision-making do not adequately capture the unique ethical dilemmas encountered in mental health practice, where confidentiality, autonomy, beneficence, and bias frequently intersect. To address this gap, we introduce Ethical Reasoning in Mental Health (EthicsMH), a pilot...

ID: 2509.11648v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Statutory Construction and Interpretation for Artificial Intelligence

2025-09-05

Авторы:

Luxi He, Nimra Nadeem, Michel Liao, Howard Chen, Danqi Chen, Mariano-Florentino Cuéllar, Peter Henderson

## Контекст Современные искусственные интеллекты (AI) все чаще применяются в областях, требующих интерпретации естественного языка, таких как юридическая сфера, образовательные системы и даже управление городами. Однако одной из главных проблем при использовании естественного языка в AI является **интерпретируемая неоднозначность**. То есть, тексты, которые AI должны интерпретировать, часто не являются однозначными, и в зависимости от того, как подходят к ним, могут быть интерпретированы разными способами. Эта неоднозначность может привести к несогласованности в поведении AI и, в итоге, к нежелательным результатам. В юридических системах, где неоднозначность текста также является проблемой, используются специальные механизмы, такие как привлечение судебных рецензентов или конституционные поправки, для устранения такой неоднозначности. Однако в AI системах, в отличие от юридических систем, такие механизмы отсутствуют. Это приводит к ситуации, когда разные модели, отличающиеся в их подходе к интерпретации текста, могут дать разные результаты, даже при одинаковом входном тексте. В нашей работе мы исследуем эту проблему, используя методологию, основанную на юридической теории, и предлагаем новую модель, которая помогает уменьшить интерпретируемую неоднозначность в AI системах. Мы стремимся создать более устойчивые и предсказуемые AI системы, которые смогут вести себя точно и согласованно в разных контекстах. ## Метод Мы предлагаем два главных механизма для устранения неоднозначности в AI: 1. **Процесс рефининга правил (Rule Refinement Pipeline)**: Этот механизм похож на агентскую регулированную деятельность или итеративный процесс законодательства. Мы предлагаем метод для того, чтобы рефинировать (очищать от неоднозначности) правила, которые используются в AI. Это может быть связано с добавлением дополнительных пояснений к тексту, который AI должен интерпретировать, или с изменением текста в соответствии с новыми потребностями. 2. **Промпт-ассистированные интерпретируемые ограничения (Prompt-Based Interpretive Constraints)**: Этот механизм аналогичен юридическим догме, которые помогают руководить судебным суждением. Мы предлагаем механизм, который может применяться к тому, как AI интерпретирует текст, чтобы уменьшить несогласованность и повысить точность его ответов. Этот механизм использует техники, такие как генеративная модель, для того, чтобы сформировать более точные интерпретации текста. Мы использовали данные из WildChat dataset, который представляет собой 5000 сценариев для тестировани

Annotation:

AI systems are increasingly governed by natural language principles, yet a key challenge arising from reliance on language remains underexplored: interpretive ambiguity. As in legal systems, ambiguity arises both from how these principles are written and how they are applied. But while legal systems use institutional safeguards to manage such ambiguity, such as transparent appellate review policing interpretive constraints, AI alignment pipelines offer no comparable protections. Different interp...

ID: 2509.01186v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 Enabling Equitable Access to Trustworthy Financial Reasoning

2025-08-30

Авторы:

William Jurayj, Nils Holzenberger, Benjamin Van Durme

## Контекст Финансовое рассуждение требует высокого уровня точности и предсказуемости, особенно при работе с законами и правилами уплаты налогов. Ошибки в таких расчетах могут привести к существенным штрафам и убыткам. Однако существующие решения часто ограничены в доступе, неэффективны и недоступны для широкого круга пользователей. Финансовые данные часто представлены в неформализованной форме, что затрудняет их обработку. Мы стремимся разработать систему, которая бы позволила эффективно и доступно обрабатывать такие данные, обеспечивая доступ к достоверному финансовому рассуждению для всех. ## Метод Мы предлагаем комбинацию трансформации неформализованных финансовых правил в логические программы с использованием символьных подходов для вычисления налоговых обязательств. Наша система использует модели языка для анализа неформализованных текстов и интеллектуальное поисковое устройство для извлечения примеров. Мы также вводим метод оценки стоимости развертывания такой системы, основанного на реальных штрафах за ошибки в налогообложении. Это позволяет оценить экономическую выгоду и эффективность подобных систем в реальном мире. ## Результаты Мы проводили эксперименты на данных StAtutory Reasoning Assessment (SARA), которые требуют высокой точности и аудиторности. Наши результаты показывают, что интеграция символьных подходов с моделями языка значительно повышает точность и эффективность. Мы также показали, что наш подход позволяет снизить стоимость развертывания системы до значительно меньшего уровня по сравнению с текущими реалиями. Это демонстрирует перспективу и экономическую выгоду использования таких архитектур в задачах повышения доступности надежных финансовых рассуждений. ## Значимость Наш подход может быть применен в различных сферах, где требуется достоверное финансовое рассуждение, включая налогообложение, финансовый анализ и поддержку финансовых решений. Он обеспечивает высокую точность, экономическую эффективность и доступность для широкого круга пользователей. Мы также открываем возможность для будущих исследований в области интеграции символьных и нейронных подходов для повышения доступности и достоверности финансовых систем. ## Выводы Мы разработали систему, которая эффективно использует символьные и нейронные подходы для решения задач финансового рассуждения. Наши результаты показывают, что этот подход может значительно повысить точность и экономическую выгоду в решении таких задач. Мы продолжим исследовать возможности улучшения этой системы и ее применения в других областях, где требуется достоверное и досту

Annotation:

According to the United States Internal Revenue Service, ''the average American spends $\$270$ and 13 hours filing their taxes''. Even beyond the U.S., tax filing requires complex reasoning, combining application of overlapping rules with numerical calculations. Because errors can incur costly penalties, any automated system must deliver high accuracy and auditability, making modern large language models (LLMs) poorly suited for this task. We propose an approach that integrates LLMs with a symbo...

ID: 2508.21051v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 A perishable ability? The future of writing in the face of generative artificial intelligence

2025-08-29

Авторы:

Evandro L. T. P. Cunha

## Контекст В начале 2020-х годов произошел значительный прогресс в развитии инструментов генерирующего искусственного интеллекта, включая системы генерирования текстов на основе больших языковых моделей. Эти системы применяются в различных сферах, от технических до литературных, и могут привести к снижению объема письменного текста, создаваемого людьми. Эта статья исследует возможность того, что люди могут потерять или значительно снизить способность к письму в результате выноса этой задачи на роботы. Эта проблема напоминает ситуацию в истории, когда человеческий род потерял власть писать в такие периоды как ГоDный век (ок. 1200–800 гг. до н.э.), когда сложившиеся письменные традиции утратились под влиянием внешних факторов. ## Метод Автор проводит теоретический анализ, основываясь на литературе и исторических сравнениях. Он рассматривает примеры из истории, в том числе ГоДный век, чтобы показать, как выбор некоторых групп людей отказаться от письменности может быть вызван факторами, такими как политические, социальные или технологические. Метод также включает в себя анализ современных текстов, сгенерированных с помощью искусственного интеллекта, чтобы определить их качество и потенциал для замены человеческих текстов. ## Результаты Исследователь сравнивает существующие тексты, созданные генерирующими системами, с текстами, написанными людьми. Он обнаружил, что генерирующие модели могут создавать тексты, которые хорошо подходят для технических и документальных целей, но часто отстают от человеческих текстов в литературной и коммуникативной сфере. Он также отмечает, что люди могут сделать выбор отказаться от письменности, если они разделяют новые технологии, которые могут делать письменную работу более эффективно. ## Значимость Результаты имеют значимость для области гуманитарных и технологических наук, поскольку они затрагивают вопросы о природе человеческого творчества, оценке значимости текстов, создаваемых искусственным интеллектом, и последствий такого изменения в общественной сфере. Эта исследовательская работа может побудить педагогов, литературных и технических специалистов, внимательно относиться к роли генерирующих моделей в переосмыслении литературы, технической документации и общественного обмена информацией. ## Выводы По мнению автора, генерирующие тексты модели могут привести к изменению способа письма и чтения, но не приведут к полной утрате способности к письму. Он предлагает, что откликнуться на эти изменения можно через и

Annotation:

The 2020s have been witnessing a very significant advance in the development of generative artificial intelligence tools, including text generation systems based on large language models. These tools have been increasingly used to generate texts in the most diverse domains -- from technical texts to literary texts --, which might eventually lead to a lower volume of written text production by humans. This article discusses the possibility of a future in which human beings will have lost or signi...

ID: 2508.19427v1 cs.CL, cs.AI, cs.CY, cs.HC

arXiv PDF

1
2
3
4
5

Показано 31 - 40 из 50 записей