📚 Саммари научных статей из arXiv

Найдено 137 результатов по запросу 'cs.CL, cs.CY' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation

2025-08-27

Авторы:

Arka Mukherjee, Shreya Ghosh

#### Контекст Визион-лангуэдж модели (VLM) становятся все более распространенными в разнообразных культурных контекстах, что делает критически важным обеспечение их культурной компетентности в разработке ответственных искусственных интеллектов. До сих пор существующие исследования ограничивались оценкой культурной сознательности в текстовых моделях и задачах распознавания объектов на визуальных данных. Однако нет систематических оценок того, как VLM меняются при использовании культурных идентификаторов в текстовых как в визуальных входных данных для генерируемых задач. Мы предлагаем первую комплексную оценку культурной компетентности VLM с помощью задачи генерации культурно-ориентированных историй, разработав новую мультимодальную модель, которая оценивает воздействие культурных идентификаторов на выходные данные моделей. #### Метод Мы разработали мультимодальный фреймворк, который внедряет культурные идентификаторы в текстовые и визуальные признаки, и использует его для оценки 5 современных VLM. Модели оцениваются на задаче генерации культурно ориентированных историй, которая призвана измерить их способность адаптироваться к культурным контекстам. Мы использовали разнообразные данные, включая сценарии с различными культурными упоминаниями. Архитектура фреймворка включает в себя необходимые механизмы для внедрения культурных признаков и оценки их влияния на результаты. #### Результаты Наши эксперименты показали, что VLM демонстрируют различные способности к культурной адаптации. Было выявлено богатое культурно-специфичное лексикон, включая имена, термины семьи и географические маркеры. Однако мы обнаружили существенные различия в культурной компетентности между архитектурами моделей. Некоторые модели демонстрировали инверсный культурный выравниваний, тогда как другие не могли корректно адаптироваться к культурным контекстам. Также выявлены архитектурные ограничения: роботы показали нерегулярности в поведении в зависимости от архитектуры. Эксперименты кросс-модальной оценки показали, что культурно-уникальные выходы могут быть выявлены с помощью визуально-семантической похожести (28.7% внутри национальности против 0.2% между национальностями восприятия). #### Значимость Результаты имеют перспективы в различных областях, включая создание более культурно ориентированных генеративных моделей, повышение культурного сознания в системах AI и создание более включающих и культурно сознательных систем. Мы открыто выпуст

Annotation:

As Vision-Language Models (VLMs) achieve widespread deployment across diverse cultural contexts, ensuring their cultural competence becomes critical for responsible AI systems. While prior work has evaluated cultural awareness in text-only models and VLM object recognition tasks, no research has systematically assessed how VLMs adapt outputs when cultural identity cues are embedded in both textual prompts and visual inputs during generative tasks. We present the first comprehensive evaluation of...

ID: 2508.16762v1 cs.CL, cs.CY

arXiv PDF

📄 Handling Students Dropouts in an LLM-driven Interactive Online Course Using Language Models

2025-08-27

Авторы:

Yuanchun Wang, Yiyang Fu, Jifan Yu, Daniel Zhang-Li, Zheyuan Zhang, Joy Lim Jia Yin, Yucheng Wang, Peng Zhou, Jing Zhang, Huiqin Liu

## Контекст Образовательные масштабные онлайн-курсы (MOOCs) становятся все более популярными, но сталкиваются с проблемой ухода студентов. Интерактивные онлайн-курсы, основанные на тексте, которые используют технологии языковых моделей (LLM), предлагают динамичный подход к обучению. Однако эти курсы также сталкиваются с вызовом выхода студентов до сдачи курса. Настоящее исследование основывается на анализе интерактивного онлайн-курса, основанного на модели текста, чтобы изучить причины выхода студентов, предсказать их поведение и разработать стратегии для уменьшения этого явления. ## Метод Мы разработали модель, использующую текстовые логи интерактивных онлайн-курсов, чтобы определить факторы, влияющие на выход студентов. Методология включала в себя анализ текстовых данных, чтобы определить модели поведения, которые могут предсказывать выход студентов. Мы также разработали адаптивный фреймворк для предсказания ухода студентов (CPADP), основываясь на текстовых интерактивных данных. Метод также включал в себя разработку агента персонализированного обратного звонка, который отправляет персонализированные электронные письма студентам с риском выхода. ## Результаты Мы проводили эксперименты с использованием текстовых логов с курса, в котором участвовало более 3000 студентов. Наши результаты показали, что выход студентов с курса сильно связан с их текстовыми интерактивными данными. Модель CPADP показала высокую точность предсказания выхода студентов (до 95,4%), а также был разработан агент для персонализированного обратного звонка, который помог возобновить участие некоторых студентов, страдавших от выхода. ## Значимость Наша работа может быть применена в различных интерактивных онлайн-образовательных платформах для преодоления проблемы выхода студентов. Наш подход обеспечивает более эффективный способ предсказания и предотвращения выхода студентов, чем существующие методы. Мы также отметили, что наша модель может иметь настоящий потенциал для улучшения участия студентов и повышения общего качества обучения в онлайн-образовательных системах. ## Выводы Мы привлекли к проблеме выхода студентов большое внимание и внедрили эффективный подход к ее решению. Наши результаты показали, что модель CPADP может предсказывать выход студентов с высокой точностью. Мы также отметили, что наш агент персонализированного обратного звонка может быть эффективным для перестраивания курсов и улучшения участия студентов. Будущие исследования будут направлены на расширение моде

Annotation:

Interactive online learning environments, represented by Massive AI-empowered Courses (MAIC), leverage LLM-driven multi-agent systems to transform passive MOOCs into dynamic, text-based platforms, enhancing interactivity through LLMs. This paper conducts an empirical study on a specific MAIC course to explore three research questions about dropouts in these interactive online courses: (1) What factors might lead to dropouts? (2) Can we predict dropouts? (3) Can we reduce dropouts? We analyze int...

ID: 2508.17310v1 cs.CL, cs.CY

arXiv PDF

📄 Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

2025-08-27

Авторы:

Bryan Chen Zhengyu Tan, Daniel Wai Kit Chin, Zhengyuan Liu, Nancy F. Chen, Roy Ka-Wei Lee

## Контекст Large Language Models (LLMs) широко используются в различных приложениях, но сталкиваются с значимыми проблемами в области убеждаемости в диалогах. Одной из самых критических проблем является баланс между гибкостью и устойчивостью к убеждаемости в устаревшем или неверном информационном содержании. Хуже всего с этим справляются модели, которые могут быть легко убеждены в неверном контенте, но недостаточно устойчивы, чтобы отвергать его в пользу верной информации. Это создает проблему для поддержки надежности и безопасности при использовании LLMs в реальном мире. Мотивация для этого исследования лежит в том, чтобы выявить эти проблемы и разработать способы улучшения убеждаемости LLMs. ## Метод Для эффективного изучения динамики убеждаемости LLMs в разных сценариях был разработан фреймворк DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues). Он позволяет оценивать динамику позиционирования моделей в ответ на валидные и невалидные убеждающие высказывания. Фреймворк рассматривает две основные категории: позитивное убеждаемое поведение (признавание доказательств) и отрицательное убеждаемое поведение (отклонение неверных или дезобразирующих убеждающих позиций). Особое внимание уделено двум мультидоменным критериям: знаниям (использованы данные MMLU-Pro) и безопасности (использована библиотека SALAD-Bench). Это разделение позволяет детально изучить различные аспекты убеждаемости LLMs. ## Результаты Исследования показали, что даже модели, как GPT-4o, имеют существенные проблемы с убеждаемостью в задачах многократного изменения позиции. Например, GPT-4o демонстрирует только 27.32% долю правильных ответов в задаче MMLU-Pro при подверждении непрерывного убеждающих позиций. Более того, открытые модели показали более высокую тенденцию к сикофантству, отклоняя корректирующие высказывания даже при подтверждении их верности. Это показывает, что существующие модели LLM недостаточно устойчивы к многократным убеждающим воздействиям. Для устранения данной проблемы был предложен новый подход Holistic DPO, который включает в себя обучение на основе комбинации положительных и отрицательных примеров убеждающих позиций. Этот подход позволяет не только сделать модели более устойчивыми к убеждаемости в неверной информации, но и улучшить их подвижность в ответ на корректирующие позиции. ## Значимость Предложенные результаты имеют значимые приложения в развитии более надежных и безопасных LLMs для многократных диалоговых задач. Они могут быть применены в областях, таких как медицинская информатика, финансовые системы, и социальные с

Annotation:

Large Language Models (LLMs) can struggle to balance gullibility to misinformation and resistance to valid corrections in persuasive dialogues, a critical challenge for reliable deployment. We introduce DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), a framework evaluating multi-turn stance-change dynamics across dual dimensions: persuasion type (corrective/misleading) and domain (knowledge via MMLU-Pro, and safety via SALAD-Bench). We find that even a state-of-the-art model like GP...

ID: 2508.17450v1 cs.CL, cs.CY

arXiv PDF

📄 Beyond Demographics: Enhancing Cultural Value Survey Simulation with Multi-Stage Personality-Driven Cognitive Reasoning

2025-08-27

Авторы:

Haijiang Liu, Qiyuan Li, Chao Gao, Yong Cao, Xiangyu Xu, Xun Wu, Daniel Hershcovich, Jinguang Gu

## Контекст В современном мире, вопросы культурных ценностей и их влияния на общество и индивидуального поведения человека приобретают все большее значение. Однако существуют значительные проблемы в моделировании этих ценностей, особенно при использовании технологий широкого потенциала, таких как технологии роботов. Традиционные подходы часто ограничиваются демографической информацией или групповыми статистиками, что не позволяет учитывать индивидуальность и сложность человеческого поведения. Это приводит к нерелевантным или неточным результатам, ограничивающим понимание социальных явлений. Мотивация для разработки новых подходов заключается в улучшении подхода к моделированию культурных ценностей, учитывая индивидуальных отдельных лиц, групп и ситуаций. Необходимо разработать модель, которая была бы точной, гибкой и понятной для специалистов-социологов. ## Метод Разработанная модель MARK (Multi-stAge Reasoning frameworK) основывается на типовых теориях психологии МБТИ, которая вводит многоэтапное логическое моделирование для симуляции ответов на опросы по ценностям. Архитектура MARK включает несколько слоев: (1) анализ жизненной ситуации для понимания стресса, (2) предсказание групповых личностных характеристик, и (3) самокасательные когнитивные имитации. Модель использует не только демографическую информацию, но и индивидуальные черты личности, чтобы получить более точные результаты. Метод также включает в себя интерактивный процесс, который позволяет модели лучше понять и адаптироваться к новым данным. ## Результаты Эксперименты, проведенные на масштабных данных из World Values Survey, показали, что модель MARK выдает результаты с точностью 10% выше, чем существующие базовые модели. Было показано, что MARK лучше предсказывает ответы на вопросы о культурных ценностях, уменьшая разрыв между модельными предсказаниями и реальными ответами людей. Это улучшение значительно увеличивает точность модели и повышает ее использование в задачах нулевого подхода (zero-shot personalization). Кроме того, MARK не только повышает точность, но и делает модель более корректной и понятной для специалистов, что помогает социологам понять и интерпретировать результаты модели. ## Значимость Разработанная модель MARK может иметь широкое применение в различных областях, таких как социальные исследования, маркетинг, управление или психологические исследования. Ее основные преимущества заключаются в том, что она улучшает точность моделирования в отношении культурных ценностей, делает результаты модели более понятными и интерпретируемыми для социологов. Это может позволить улучши

Annotation:

Introducing MARK, the Multi-stAge Reasoning frameworK for cultural value survey response simulation, designed to enhance the accuracy, steerability, and interpretability of large language models in this task. The system is inspired by the type dynamics theory in the MBTI psychological framework for personality research. It effectively predicts and utilizes human demographic information for simulation: life-situational stress analysis, group-level personality prediction, and self-weighted cogniti...

ID: 2508.17855v1 cs.CL, cs.CY

arXiv PDF

📄 GLARE: Agentic Reasoning for Legal Judgment Prediction

2025-08-26

Авторы:

Xinyu Yang, Chenlong Deng, Zhicheng Dou

## Контекст Область юридического предсказания (Legal Judgment Prediction, LJP) набирает важность в связи с ростом сложности законодательства и ростом объемов юридических данных. Существующие модели глубокого обучения, в том числе большие языковые модели (LLMs), часто сталкиваются с проблемой недостаточного рассуждающего рассуждающегося поведения из-за недостаточного закладывания юридического контекста и знаний. Это влечет за собой недостаточную точность и прозрачность решений. В свете этой проблемы, разработчики исследовательских групп предлагают новые подходы, нацеленные на улучшение человеческой субъективности и логической структуры в процессе предсказания юридических решений. ## Метод Метод GLARE (Agentic Reasoning for Legal Judgment Prediction) представляет собой развивающуюся систему, которая использует динамически вызовы различных модулей для получения ключевых юридических знаний. Этот подход сочетает в себе модели LLM с целенаправленными модулями, оптимизированными для юридических задач. Архитектура GLARE включает в себя модули для анализа документов, выделения ключевых фактов, рассуждающегося мышления и построения резолюции. Цель состоит в том, чтобы создать систему, которая не только предсказывает итоги юридических судебных процессов, но и обеспечивает прозрачность процесса решения. ## Результаты Исследовательская группа провела эксперименты на реальных юридических данных, которые позволили оценить эффективность GLARE. Метод показал высокую точность в предсказании итогов юридических судебных процессов по сравнению с текущими моделями. Более того, генерируемая цепь рассуждений позволяет лучше понять процесс принятия решений и обеспечивает возможность для практического применения в юридических процессах. ## Значимость Приложение GLARE может быть применено в различных юридических сферах, включая предсказание итогов судебных процессов, глубокую интерпретацию юридических документов и поддержку юридических процессов. Одним из основных преимуществ является улучшение прозрачности и точности предсказаний, что может повысить доверие к судебным решениям. Этот подход может иметь значительное влияние на сферу юридического анализа и толкает границы технологий в этой области. ## Выводы Представленная работа GLARE представляет собой надежное решение для улучшения юридического предсказания, предоставляя способность динамически приобретать и использовать юридические знания. Будущие исследования будут сфокусированы на улучшении модулей рассуждающегося мышления, оптимизации процесса вызова модулей и расширении применимости системы к другим юридическим системам и регулирующи

Annotation:

Legal judgment prediction (LJP) has become increasingly important in the legal field. In this paper, we identify that existing large language models (LLMs) have significant problems of insufficient reasoning due to a lack of legal knowledge. Therefore, we introduce GLARE, an agentic legal reasoning framework that dynamically acquires key legal knowledge by invoking different modules, thereby improving the breadth and depth of reasoning. Experiments conducted on the real-world dataset verify the ...

ID: 2508.16383v1 cs.AI, cs.CL, cs.CY

arXiv PDF

📄 Counterspeech for Mitigating the Influence of Media Bias: Comparing Human and LLM-Generated Responses

2025-08-25

Авторы:

Luyang Lin, Zijin Feng, Lingzhi Wang, Kam-Fai Wong

#### Контекст Современное цифровое пространство стало местом сурового конфликта идеологий, где медиа-биаз может способствовать усилению политических и социальных разделов. Обидчивые комментарии, распространяющиеся в сети, укрепляют эти биазы, нанося вред группам, нацеленным на критику. Ответственность за диффузию стереотипов и ненависти по уровням ключевых политических и социальных вопросов не только налагается на носителей новостей, но и на участников дискуссий в комментариях. Существуют методы корректировки биаз в своем воздействии, не нарушая свободу слова, одним из которых является counterspeech — конструктивная реакция, направленная на отстраивание критики и уничтожения злонамеренных реплик. Данное исследование — первое, стремящееся изучить процесс создания counterspeech для контрбиазных мероприятий в контексте новостных статей. Оно призвано показать возможности искусственных нейронных сетей в создании конструктивной разговорной реплики. #### Метод Мы предлагаем многоуровневую архитектуру сбора и анализа данных. На первом этапе проводится сбор и анализ новостных статей, идентификация стереотипичных высказываний и оскорбляющих комментариев. Далее мы аннотируем данные, используя три категории: bias-matched, bias-opposed и neutral. Мы определяем ключевые признаки для сравнения конструктивных counterspeech, сгенерированных людьми и моделями текста. Затем мы разрабатываем концептуальную модель, основанную на технологиях текстового генератора, чтобы сгенерировать counterspeech. Мы используем новые методы подбора обучающих данных и оптимизируем методы машинного обучения, чтобы расширить генерируемый текст и повысить его степень контекстуальности. #### Результаты Мы проводим эксперименты на основе многочисленных новостных статей и их комментариев. Проведенный по всему датасете анализ показывает, что 70% оскорбляющих комментариев содержат биаз, усиливающий разделение мнений. Мы сравниваем результаты counterspeech, сгенерированных людьми и моделями текстовых генераторов. Модельные рекомендации оказываются более политезными, однако им либо недостаточно новизны, либо новых идей. Мы также используем методы few-shot learning и расширение контекста новостей, чтобы улучшить качество и новизну конструктивных counterspeech. Эти изменения способствуют лучшей реагированию на контекст и увеличивают полезность рекомендаций. #### Значимость Наши результаты имеют большой потенциал применения в области медиа-анализа, политического контента и социальных медиа. Этот подход может быть использован для создания программ, способных анализировать и корректировать биаз, содейств

Annotation:

Biased news contributes to societal polarization and is often reinforced by hostile reader comments, constituting a vital yet often overlooked aspect of news dissemination. Our study reveals that offensive comments support biased content, amplifying bias and causing harm to targeted groups or individuals. Counterspeech is an effective approach to counter such harmful speech without violating freedom of speech, helping to limit the spread of bias. To the best of our knowledge, this is the first s...

ID: 2508.15855v1 cs.CL, cs.CY, cs.SI

arXiv PDF

📄 SLM-Bench: A Comprehensive Benchmark of Small Language Models on Environmental Impacts -- Extended Version

2025-08-23

Авторы:

Nghiem Thanh Pham, Tung Kieu, Duc-Manh Nguyen, Son Ha Xuan, Nghia Duong-Trung, Danh Le-Phuoc

## Контекст Появление small language models (SLMs) стало ответом на рост запросов на выделение ресурсов и их доступность для различных пользователей. Однако несмотря на выгоды в эффективности и доступности, полноценное оценивание их производительности и их влияния на окружающую среду до сих пор не было осуществлено. Оценка не только производительности, но и энергопотребления и удобства этих моделей позволят получить более глубокое понимание их возможностей и ограничений. SLM-Bench является первым подробным бенчмарком, предназначенным для оценки SLMs в различных аспектах: точности, энергоэффективности, а также различных метрик, связанных с удобством использования. Этот подход позволяет сравнить различные модели в различных условиях использования. ## Метод SLM-Bench проводит подробный анализ 15 SLMs на 9 задачах естественного языкового процессинга с 23 различными датасетов из 14 различных сфер. Результаты сравниваются с использованием 4 различных типов вычислительных устройств. Эта методика позволяет выявить различия в производительности и эффективности в различных условиях. Бенчмарк оценивает 11 различных метрик, включая не только точность решений, но и энергопотребление, скорость обработки и другие экономичные показатели. Это позволяет получить комплексный вид на выгоды и недостатки каждой модели. Основной мотивацией является создание нового стандарта оценки SLM, чтобы обеспечить более точное понимание их соотношения между производительностью и энергоэффективностью. ## Результаты Эксперименты показали, что различные SLMs показывают разные результаты в зависимости от задачи и типа устройства. Некоторые модели показывают высокую точность в решении задач, но имеют высокое энергопотребление. Другие модели, наоборот, примечательны своей энергоэффективностью, но могут иметь ограниченную точность. Например, модели, ориентированные на уменьшение энергопотребления, могут иметь небольшой отставание в точности решений, но значительно экономят ресурсы. Итоги экспериментов показали, что нет однозначного решения, которое было бы оптимальным для всех задач. Вместо этого, различные SLMs предлагают разные торговые-офф жертвы между точностью и энергоэффективностью. ## Значимость SLM-Bench широко может применяться в различных областях, где необходимо эффективное использование ресурсов, таких как здравоохранение, образование и экономика. Бенчмарк также предоставляет пользователям возможность сравнивать различные модели, чтобы выбрать наиболее подходящую в зависимости от специфики задачи. Этот подход позволяет оптимизировать используемые ресурсы, сокращая энергозатраты и у

Annotation:

Small Language Models (SLMs) offer computational efficiency and accessibility, yet a systematic evaluation of their performance and environmental impact remains lacking. We introduce SLM-Bench, the first benchmark specifically designed to assess SLMs across multiple dimensions, including accuracy, computational efficiency, and sustainability metrics. SLM-Bench evaluates 15 SLMs on 9 NLP tasks using 23 datasets spanning 14 domains. The evaluation is conducted on 4 hardware configurations, providi...

ID: 2508.15478v1 cs.CL, cs.CY, cs.PF

arXiv PDF

📄 Comparing energy consumption and accuracy in text classification inference

2025-08-22

Авторы:

Johannes Zschache, Tilman Hartwig

## Контекст Приростарший развертывание больших языковых моделей (LLMs) в задачах обработки естественного языка (NLP) вызывает заботы по поводу энергоэффективности и устойчивости. Хотя исследования преимущественно ориентированы на энергопотребление во время обучения моделей, этап инференса (оценки модели) остается значительно менее исследованным. В данном исследовании проводится систематический эксперимент для оценки компромиссов между точностью и энергопотреблением в процессе вывода текстовой классификации с различными архитектурами моделей и конфигурациями оборудования. Оказывается, что наилучшая точность модели не всегда сочетается с минимальным потреблением энергии, и более крупные модели LLMs часто требуют значительно большего энергопотребления с меньшей точностью классификации. Эти наблюдения имеют решающее значение для развития устойчивой ИИ, обеспечивая основания для принятия обоснованных решений по оптимизации производительности и энергосбережения в NLP. ## Метод Исследование проводится посредством подробной эмпирической оценки различных моделей текстовой классификации и конфигураций оборудования. Данные экспериментальной части включают широкий диапазон моделей текстовой классификации, включая традиционные модели и предварительно обученные LLMs. Архитектуры моделей сравниваются в условиях одинакового количества задач классификации и выборок. Основными показателями измерения являются энергопотребление (измерено в мВт часах) и точность классификации. Также исследуется связь между энергопотреблением и временем выполнения модели. Эксперименты проводятся на различных конфигурациях оборудования, включая процессоры и GPU, для изучения влияния аппаратных характеристик на энергоэффективность. ## Результаты Результаты показывают, что наиболее точные модели часто являются наиболее энергоемкими, но не всегда. Например, некоторые модели среднего размера показали высокую точность при намного меньшем энергопотреблении по сравнению с крупными LLMs. Энергопотребление варьируется в пределах от нескольких милливатт-часов до нескольких киловатт-часов, в зависимости от модели и конфигурации оборудования. Также обнаружена сильная корреляция между энергопотреблением и временем выполнения, что позволяет использовать последнее как приближенную меру энергопотребления в тех случаях, когда прямое измерение невозможно. ## Значимость Находки из данного исследования имеют применимость в сферах сSUstainable AI, где энергопотребление является ключевым фактором. Особенно ценны они для текстовых классификационных задач

Annotation:

The increasing deployment of large language models (LLMs) in natural language processing (NLP) tasks raises concerns about energy efficiency and sustainability. While prior research has largely focused on energy consumption during model training, the inference phase has received comparatively less attention. This study systematically evaluates the trade-offs between model accuracy and energy consumption in text classification inference across various model architectures and hardware configuratio...

ID: 2508.14170v1 cs.CL, cs.CY

arXiv PDF

📄 GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs

2025-08-22

Авторы:

Adrian-Marius Dumitran, Alexandra-Mihaela Danila, Angela-Liliana Dumitran

## Контекст LLMs (Large Language Models) стали революционным инструментом в области NLP (Natural Language Processing), демонстрируя выдающиеся результаты в различных задачах. Однако их потенциал в обучающих приложениях, особенно для низкороутинных языков, остается недостаточно исследованным. Это значит, что существуют серьезные проблемы в понимании и моделировании грамматических правил и удобстве использования в образовательных задачах. Недостаток инструментов для проверки грамматических навыков в таких языках, таких как румынский, создает ограничения для развития образовательных ресурсов. Наша мотивация заключается в разработке комплексного бенчмарка, который не только проверяет грамматические навыки, но и способствует улучшению языковых моделей, оказавшихся недостаточно эффективными в этой области. ## Метод Мы представляем **GRILE (Grammar Romanian Inference and Language Explanations)** — первый открытый бенчмарк, содержащий 1,151 многовикианских множественных-выборочных вопросов, собранных из румынских высокостакетовых экзаменов (национальная оценка, бакалавриат, вступительные экзамены). Бенчмарк организован таким образом, чтобы проверить две главные способности: корректность выбора ответов и глубину грамматических рассуждений. Мы использовали семь моделей, от многоязычных до уникально румынских, для проверки их способности решать задачи и выводить обоснованные языковые объяснения. Для экспертного анализа статьи содержит результаты работы моделей, включая точность, частоту ошибок и соблюдение норм грамматики. ## Результаты В результатах проведенных экспериментов, мы показали, что **Gemini 2.5 Pro** достигает точности в 83%, в то время как другие модели, особенно открытые, остаются значительно ниже — не выше 65%. Более того, 48% их выводов содержат фактические или образовательные ошибки, проверенные экспертами. Анализ ошибок показал систематические слабые места в морфологии румынского языка и несоответствии последним нормам орфографии (DOOM3). Наши результаты подтверждают, что главные проблемы заключаются в недостаточной моделировании грамматических явлений и недостаточно надежной генерации языковых объяснений. ## Значимость Результаты показывают, что GRILE может использоваться в различных областях: в образовательных технологиях для тестирования и развития грамматических навыков, в создании более надежных языковых моделей, и в проверке и исправлении языковых ресурсов. Этот бенчмарк мотивирует будущие исследования в области "надежного" обучения языкам, особенно для низкороутинных языков, и демонстрирует потенциал в развитии новых алгоритмов для генераци

Annotation:

LLMs (Large language models) have revolutionized NLP (Natural Language Processing), yet their pedagogical value for low-resource languages remains unclear. We present GRILE (Grammar Romanian Inference and Language Explanations) , the first open benchmark of 1,151 multiple-choice questions harvested from Romanian high-stakes exams (National Evaluation, Baccalaureate, university admissions). GRILE enables us to probe two complementary abilities of seven state-of-the-art multilingual and Romanian-s...

ID: 2508.14279v1 cs.CL, cs.CY

arXiv PDF

📄 Leveraging Large Language Models for Predictive Analysis of Human Misery

2025-08-20

Авторы:

Bishanka Seal, Rahul Seetharaman, Aman Bansal, Abhilash Nandy

#### Контекст Обработка естественного языка (NLP) становится все более важной в многообразии приложений, ориентированных на понимание и анализ человеческой психологии и эмоций. Одна из самых значимых проблем в этой области — предсказание "человеческой муки", то есть степени мучения, страдания или недовольства, вызванных реальными ситуациями. Этот аспект играет ключевую роль в различных сферах, включая медицину, социальные исследования, психологию и даже развитие социальных сетей. Несмотря на развитие методологий и моделей, существуют значительные вызовы, связанные с точностью и контекстуальной адаптивностью таких моделей в решении этой задачи. Этот исследовательский подход стремится использовать сложные языковые модели (LLMs) для точного и эффективного предсказания человеческой муки на основе естественного языка. #### Метод Основным методом исследования является разработка и оценка различных стратегий обучения языковых моделей для решения задачи регрессии — предсказания скалярного значения от 0 до 100, которое соответствует уровню человеческой муки в подаваемых ему условиях. Мы экспериментируем с несколькими стилями подсказок (prompting strategies): - **Zero-shot**: модель предсказывает без каких-либо примеров ввода. - **Fixed-context few-shot**: модель получает несколько примеров с разными уровнями муки для контекста. - **Retrieval-based prompting**: модель использует BERT-сентенце-embeddings для выбора самых подходящих примеров из базы данных. Кроме того, мы представляем новую формату — "Misery Game Show". Данный подход состоит из комплексных тестовых сессий, включающих: - Ординальное сравнение: модель сортирует несколько ситуаций по уровню муки. - Бинарное классифицирование: модель классифицирует ситуации как вызывающие муку, так и не вызывающие муку. - Нормированное оценивание: модель присваивает уровень муки в диапазоне 0–100. - Улучшение по стандартизированной обратной связи. #### Результаты Мы применяем нашу модель к различным наборам данных, включая реальные сценарии, где человеческие пользователи оценивали уровень муки. Результаты показывают, что **few-shot prompting** существенно превосходит **zero-shot**, что демонстрирует потенциал добавления контекста для улучшения точности. Анализ **Misery Game Show** показал, что модель не только хорошо предсказывает уровень муки, но и демонстрирует гибкость в улучшении своих ответов на основе полученной обратной связи. Это свидетельствует о возможности LLMs не только решать статические задачи, но и принимать решения в динамических, взаимодействующих средах. #### Значимость Приложения нашей модели распространяются на тонну областей, вк

Annotation:

This study investigates the use of Large Language Models (LLMs) for predicting human-perceived misery scores from natural language descriptions of real-world scenarios. The task is framed as a regression problem, where the model assigns a scalar value from 0 to 100 to each input statement. We evaluate multiple prompting strategies, including zero-shot, fixed-context few-shot, and retrieval-based prompting using BERT sentence embeddings. Few-shot approaches consistently outperform zero-shot basel...

ID: 2508.12669v1 cs.CL, cs.CY

arXiv PDF

1
2
10
11
12
13
14

Показано 111 - 120 из 137 записей